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C 语言 进 阶 
没有 那么 多 条 条 框框 
总 之 看 了 总 会 有 收获 


需要 离线 版 本 可 以 前 往 Gitbook 页 面 下 载 ， 链 接 在 下 方 


适用 人 群 


对 于 已 经 掌握 C 语言 基础 的 人 ， 本 书 是 非常 值 4 


时 学 习 参 考 的 ， 作 者 打破 传统 C 语 
言 学 习 的 繁琐 过 程 ， 个 性 展示 不 一 样 的 C。 
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C 语 言 核 心 知 识 上 


我 的 C 语 言 


0x00-C 语 言 前 续 工作 


iu 


正 所谓 ， 工 欲 善 其 事 ， 必 先 利 其 器 ， 把 握 住 当下 最 强大 的 工具 ， 能 让 我 们 在 学 习 的 
道路 上 少 走 许多 弯路 ， 多 吸取 前 人 的 失败 经 验 ， 能 让 自己 快速 成 长 ， 因 为 成 长 总 是 
在 消耗 我 们 的 耐心 以 及 生命 。 


入 门 或 者 精通 或 者 应 用 ， 不 管 哪 一 方面 ， 对 于 一 个 编程 语言 而 言 ， 最 方便 的 还 是 使 
用 一 个 IDE 作 为 你 的 有 力 助 手 ， 什 么 事 IDE? 通俗 而 专业 的 说 叫做 集成 开发 环境 ， 这 
个 通过 字面 就 能 理解 到了， 就 是 所 有 其 他 的 事情 都 不 需要 程序 员 操心 ， 你 需要 操心 
的 就 是 写 出 代码 ， 至 于 代码 完成 之 后 的 一 系列 工作 ， 都 不 需要 你 来 管 ，IDE 一 键 帮 
你 搞定 。 


当然 ， 会 有 许多 前 辈 告 诉 你 ， 如 果 你 想 理解 C 语 言 ， 那 你 一 定 要 使 用 最 基层 的 东西 
来 号， 比如 XXX 编辑 器 配 上 XXX 编译 器 ， 尝 头 转向 之 后 更 加 茫然 ， 本 来 就 支 离 破 丰 
的 小 心 秆 ， 又 被 粉碎 了 一 次 ， 撤 开 那 些 与 当下 不 符合 的 幻想 ， 活 在 现实 中 ， 选 择 一 
个 适合 你 的 IDE， 和 逐渐 适应 它 。 


@ 讲 几 个 著名 的 IDE， 并 给 出 建议 ， 利 器 第 一 步 : 


1. 字 宇 级 的 IDE: Visual Studio(2010~2017)， 之 所 以 说 宇宙 级 ， 因 为 这 是 市 
面 上 最 强大 的 集成 开发 环境 ， 由 微软 公司 出 品 ， 但 是 放 在 开头 不 是 为 了 推 
背 他 ， 而 是 为 了 警示 大 家 不 要 使 用 它 作为 C 语 言 的 集成 开发 环境 ， 因 为 它 
使 用 的 是 微软 公司 自己 定制 的 C++ 编译 器 ， 也 就 是 说 ， 你 的 C 语 言 代 码 会 
在 C++ 的 标准 下 编译 运行 ， 这 就 是 一 个 十 分 不 好 的 现象 ， 即 便 是 C++ 我 依 
日 不 喜欢 使 用 Visual Studio， 因 为 它 的 C++ 编译 器 总 是 和 普通 的 标准 有 所 
出 入 。 


原 归 正 传 ，Visual Studio 的 确 不 是 一 个 好 的 C 语 言 学 习 IDE， 所 以 请 另外 选 
择 一 个 。 


2. 老牌 IDE: DevC++， 这 又 是 一 个 大 家 和 耳熟能详， 经 常 能 在 老师 手 里 看 见 的 
C 语 言 教 学 利器 ， 但 是 ， 它 是 C++ 的 IDE， 记 住 C 于 C++ 完全 是 两 个 世界 的 
人 人， 虽然 C++ 宣 称 能 全 面 兼容 C 程 序 ， 但 是 有 些 东 西 依 昌 是 有 所 区 别 ， 体 
现在 语法 的 兼容 性 上 ， 后 文 会 有 提 及 。 那 为 什么 大 学 老师 喜欢 使 用 它 呢 ? 
因为 一 本 由 清华 大 学 出 版 社 出 版 的 《数据 结构 》， 让 无 数 人 为 之 折服 ， 其 


中 赫然 写 着 由 于 性 能 我 们 不 能 拘泥 于 小 细节 ， 故 对 于 C++ 的 特性 & 引 

用 ， 我 们 可 以 将 其 使 用 在 Ci 语言 的 语法 中 ， 就 是 这 和 句 话 ， 让 无 数 无 知 的 学 
子 扑 向 其 中 ， 再 也 分 不 清 C 与 Ct+， 看 成 谭 浩 强 之 后 的 ， 清 华 大 学 出 版 社 
又 一 诲 人 不 倦 的 力作 。 


所 以 ， 站 爱 编程 ， 远 离 清华 大 学 出 版 社 ， 也 请 大 家 注意 ， 不 要 使 用 
DevC++ 这 个 IDE 进 行 C 语 言 程 序 的 开发 以 及 练习 。 


知名 IDE: Code::Blocks， 是 一 款 非 常 优秀 的 开源 跨 平台 集成 开发 环境 ， 体 
积 并 不 大 ， 适 合作 为 C 语 言 的 IDE， 并 且 功 能 齐全 ， 有 兴趣 的 人 可 以 深究 ， 
这 是 几 个 首 推 的 C 语 言 开发 环境 选择 。 


知名 IDE: CodeLite， 是 一 款 非常 优秀 的 开源 跨 平台 集成 开发 环境 ， 体 积 并 
不 大 ， 适 合作 为 C 语 言 的 IDE， 并 且 功 能 齐全 ， 有 兴趣 的 人 可 以 深究 ， 这 是 
次 推 的 C 语 言 开 发 环境 选择 ， 因 为 使 用 起 来 稍微 也 有 些 额外 的 工作 要 做 。 


Xcode， 是 一 个 革 果 电脑 上 的 史诗 级 集成 开发 环境 ， 虽 然 脱胎 于 
各 言 ， 但 是 由 于 某 些 原因 ， 并 不 太 建 议 使 用 其 作为 C 语 言 的 开发 环境 。 


实用 的 IDE: CLion, 是 一 款 收 费 软 件 ， ee a ii 你 只 需要 
使 用 教育 邮箱 进行 一 些 验证 步骤 就 能 得 到 它 ， 有 条 件 的 推荐 这 个 IDE， 缺 
点 就 是 使 用 Java 编写 ， 实 在 是 有 i 


知名 的 IDE: Qt Creator 是 一 款 免 费 的 集成 开发 环境 ， 跨 平台 ， 且 有 远程 
调试 功能 ， 十 分 推荐 使 用 ! 但 是 初学 者 可 能 对 项 目 工 程 没 什么 概念 ， 会 比 
较 麻 烦 。 


不 知名 IDE: Kdevelop5 尚 处 于 测试 阶段 ， 容 易 崩 溃 ， 但 却 是 一 款 开源 的 
集成 开发 环境 ! 等 稳定 下 来 说 不 定 又 是 一 把 利器 


0° 


e。 IDE 的 基本 配置 利器 第 二 步 是 对 所 选 的 |DE 进 行 一 些 基 本 的 配置 ， 以 及 小 科 


六 。 


日 


1， 对 于 一 个 练习 Ci 语言 的 开发 环境 来 说 ， 选 择 合适 的 标准 和 编译 器 是 很 重要 


在 Windows 以 及 Linux 操 作 系 统 下 ， 0 GCC 这 个 家 伙 上 比较 
， 开源， 免费 ， 且 极其 强大 。 ns 先 择 clang ， 当 然 整 个 计 
和 个 友 持 C 放 言 的 名 并 不 止 这 两 个 ， 只 不 过 这 两 个 是 开源 免 
费 ， 而 且 功 能 强大 ， 十 分 适合 作为 个 人 开发 以 及 无 特殊 需求 的 企业 开发 的 
选择 。 


选择 了 编译 器 ， 我 们 开始 讲 标准 : 


对 于 GCC 5.1 以 下 的 所 有 版 本 ， 都 默认 对 C 语 言 使 用 C89 标准 ， 但 是 我 
建议 使 用 C99 两 者 的 差距 ， 有 一 个 极其 明显 的 地 方 ， 便 是 for 循环 的 使 
用 


/*C89:*/ 

lA ee 

for(i = 0;i < 10;++i) 
CR 


/AC99 
for(int i = 0;i < 10;++i) 
0 


这 只 是 其 中 的 一 种 差别 ， 但 是 C99 需 要 人 为 手动 的 开启 ， 但 是 很 多 人 有 疑 
问 ， 为 什么 有 时 候 没有 配置 什么 也 能 使 用 后 面 的 语法 ? 吴 老 师 告 诉 你 ， 这 
是 因为 你 用 了 C++ 的 文件 进行 C 语 言 的 开发 ， 就 像 挂 羊皮 卖 狗肉 的 道理 。 
.开启 C99 

一 般 IDE 的 顶部 都 是 一 系列 的 标签 ， 找 到 工具 /设置 ， 因 为 不 同 的 |DE 可 
能 有 不 同 的 标签 ， 总 之 在 其 中 找到 一 个 叫 (编译 器 )Compiler 之 后 ， 在 其 中 
的 other option 中 加 入 以 下 : -std=c99 ， 这 便 是 开 尼 C99 的 选项 代码 ， 完 
事 之 后 保存 即 可 。 虽 然 说 我 们 是 中 国人 ， 但 是 毕竟 这 东西 的 外 国人 发 明 
的 ， 我 们 能 看 英文 就 看 英文 吧 。 


. 至 此 ， 利 器 成 功 配置 。 


.当然 最 重要 的 还 是 内 在 ， 所 以 加 油 吧 ， 虽 然 是 一 门 很 十 老 的 语言 ， 但 是 存 
在 既 有 其 道理 。 


.以 上 所 说 均 为 ISO 标准 ， 还 有 一 些 标 准 称 为 GNU 扩 展 集 ， gnu99 之 类 
的 ， 有 兴趣 的 可 以 上 维基 百科 自行 查询 。 


0x01-C 语 言 序言 
倒是 觉得 写 代 码 首 先 不 是 语法 ， 而 是 格式 ， 任 何 时 候 任何 地 点 ， 要 是 自己 的 代码 难 
以 理解 ， 要 么 你 是 故意 的 ， 要 么 你 就 是 菜 菜 


一 个 难以 被 人 理解 的 代码 在 我 看 来 是 没有 太 多 的 潜力 的 ， 但 不 排除 故意 为 之 的 情况 ， 
也 许 很 多 人 说 这 是 强迫 症 ， 但 是 无 论 打 开 哪 一 个 开源 代码 ， 你 看 到 的 都 将 是 一 个 拥 
有 规范 的 代码 文件 


也 许 有 人 说 人 不 应 该 被 限制 ， 不 应 该 拘泥 于 小 节 ， 但 是 当 一 个 工程 超过 一 千 行 ， 也 
许 不 用 只 需要 不 到 五 百 行 ， 就 能 完全 暴露 出 代码 规范 的 重要 性 ， 包 括 缩 进 ， 变 量 命 
名 ， 接 口 存 放 ， 接 口 参数 的 规范 之 类 ， 听 起 来 似乎 很 虚 : 各 语言 代码 规范 合集 


在 我 看 来 Ci 语言 的 内 建 语法 丨 是 无 比 简洁 ， 几 乎 存在 既 有 道理 ， 简 洁 不 代表 着 不 强 
大 ， 强 大 的 某 些 地 方 在 近来 渐渐 复苏 的 Lisp 身 上 也 有 体现 。 


if, for, while, switch 


组 成 了 每 个 C 程 序 的 半壁 江山 


mn 十 IT 1 IT ,) Se sl | IT 到 nh TI % [| IT 二 IT 


组 成 了 各 式 各 样 的 算法 计数 


WSSY eceu IT | mn eh TEA 人 AT 1 Ne | IT 1 TI 


让 C 语 言 有 了 更 高 效 的 算法 以 及 更 奇妙 的 思路 
struct enum union #define return 


而 这 些 则 让 C 语 言 在 这 乱世 纷争 中 站 稳 了 脚跟 ， 并 且 一 枝 独 秀 
af ho (Os 


让 代码 不 再 无 序 混乱 
"type 大 1 We 0) We 


让 C 语 言 在 这 个 世界 无 处 不 在 0 J | 


还 记得 他 们 吗 ? 我 想 这 一 华 子 都 忘 不 了 了 


0x02- 编 程 带 给 我 的 


是 快乐 而 不 是 阐 将 ， 如 果 你 觉得 编程 痛苦 ， 请 放下 你 手头 的 工作 ， 找 找 自己 丨 正 想 
要 的 ， 无 论 从 什么 角度 来 看 ， 你 都 应 该 放弃 令 你 痛苦 的 事情 ， 花 上 三 杯 茶 的 时 间 ， 
看 看 自己 的 心 到 底 喜 欢 什 么 。 


C 语 言 可 谓 是 让 一 个 程序 员 最 难以 感受 到 自己 进步 的 编程 语言 ， 一 个 黑 窗 口 就 让 无 
数 程序 员 再 也 走 不 出 来 。 或 者 迷失 ， 或 者 停滞 不 前 ， 或 者 放弃 ， 一 个 人 最 恐惧 无 
助 ， 其 至 往 香 的 时 候 ， 就 是 在 努力 之 后 却 感受 不 到 自己 在 进步 ， 努 力 的 白费 是 所 有 
人 不 愿意 看 到 的 ， 但 是 太 多 人 就 着 所 谓 前 途 而 奋不顾身 的 投入 这 个 事业 ， 他 们 也 许 
对 计算 机 完全 没有 喜爱 之 心 ， 埋 头 苦 干 ， 世 人 恬 称 爱 读书 的 好 和 孩子， 但 是 这 意义 又 
在 何 处 ?即使 最 后 你 领 着 你 觉得 高 的 工资 ， 站 在 了 同学 ， 朋 友 的 前 方 ， 依 然 发 现 自 
己 并 没有 得 到 满足 ， 在 我 看 来 ， 让 自己 开心 的 才 是 最 好 的 ， 不 适合 你 的 永远 是 最 差 
的 ， 即 便 能 带 来 利益 ?何不 花 三 杯 茶 的 时 间 ， 想 想 自己 到 底 适 合 何 处 。 


在 C 语 言 的 道路 上 ， 尝 括 了 许多 道 天 暂 ， 并 不 是 说 这 门 语言 比 其 他 语言 难 ， 相 反 它 
十 分 符合 人 类 的 思维 逻辑 ， i tn ne 
界 已 经 无 其 大 用 ， 在 现在 这 级 语言 遍地 走 的 时 代 里 ， 有 用 的 只 是 那些 将 C 语 言 
发 挥 到 极限 的 工程 ， ee 人 写 一 个 数据 结构 ， 一 个 算法 ， 也 许 你 觉得 徒手 

写 出 一 棵 红 黑 树 很 了 不 起 了 ? 那 也 就 是 做 成 一 个 字典 树 ， 在 一 个 浩大 的 工程 中 ， 一 
个 虽 重 要 却 不 起 眼 的 小 部 分 罢了 ， 学 完 所 有 语法 ， 却 不 知 所 措 接 下 去 该 怎么 做 ? 有 
心 人 在 无 尽 的 探索 之 后 发 觉 ， 啊 ! 标准 库 ! 啊 算 法 1 嗯 对 了 ， 还 有 各 种 各 样 的 第 三 
方 扩 展 ， 以 后 呢 ? 啊 1 操作 系统 1 然而 自学 的 路 上 充满 着 坎坷 ， 艰 辛 ， 无 助 ， 上 类 
恼 ， 那 又 如 何 ? 喜欢 就 好 。 


所 谓 师 傅 领 进门 ， 修 行 在 个 人 ， 这 名 话 在 我 看 来 有 两 个 重要 点 ， 却 是 现在 大 学 生 几 
平 缺 失 的 。 师 傅 一 词 告诉 我 们 ， 要 不 耻 下 问 ， 要 善于 询问 ， 而 不 是 伸手 即 来 思 

想 ，" 提 问 的 智慧 "在 我 看 来 是 一 门 很 重要 的 课程 ， 特 别 是 在 当今 信息 时 代 。 而 更 重 
要 的 是 ， 先 入 为 主 的 思想 是 极其 可 怕 的 ， 在 这 两 年 的 自学 历程 里 ， 见 过 太 多 后 来 者 
居 上 的 事迹 ， 当 你 一 直 认 为 自己 一 定 比 后 莫 强 时 ， 你 就 注定 输 了 ， 所 以 不 耻 下 问 才 
是 最 重要 的 。 但 是 如 果 师 傅 是 那么 容 钨 找到 的 ， 那 就 不 会 有 学 校 了 ， 个 人 指 的 并 不 
是 孤军 奋战 ， 而 是 要 善于 自己 发 现 问题 ， 努 力 解决 问题 ， 这 个 过 程 可 能 少不了 请 教 
他 人 


编程 可 以 是 一 种 信仰 ， 至 少 在 我 认为 是 这 样 的 ， 把 它 当 作 信 你 的 人 ， 它 就 能 给 你 快 
乐 ， 给 你 充实 ， 当 然 也 不 要 忘 了 现实 ， 虽 然 现 实 中 总 是 少不了 加 班 的 占 绊 ， 但 是 如 
果 是 丨 心 喜 爱 编程 ， 又 怎么 会 被 这 些 困 难 所 打败 ?但 是 C 语 言 丨 的 不 是 一 门 容易 精 
通 的 语言 。 


0x03-C 代 码 


#include <stdio.h> 

int main(void) 

{ 
printf("That is Right Style\n"); 
return 0， 


在 一 个 标准 的 C 语 言 程序 中 ， 最 特殊 的 英 过 于 main 函 数 了 ， 而 说 到 底 它 就 是 一 个 函 
数 而 已 ， 仅 仅 因 为 它 地 位 特殊 拥有 第 一 执行 权力 ， 换 多 话说 ， 难 道 因为 一 个 人 是 省 
长 它 就 不 是 人 类 了 ? 所 以 函数 该 有 的 它 都 应 该 有 ， 那 么 函数 还 有 什么 呢 ? 


函数 大 体 上 分 为 内 联 部 数 (C99)( 内 联 蝇 数 并 非 C++ 专 属 ，C 语 言 亦 有 ， 具 体 见 前 方 
链接 ) 和 非 内 联 的 普通 函数 ， 它 们 之 间 有 一 个 很 明显 的 特点 (一 般 情况 下 )， 那 就 是 不 
写 原 型 直接 在 main 元 数 上 方 定 义 ， 即 使 不 加 'inline' 关 键 字 ， 也 能 被 编译 器 默认 为 内 
联 函 数 ， 但 之 后 带 来 的 某 些 并 发 问题 就 不 是 编译 器 考虑 的 了 。 

普通 函数 正确 的 形式 应 该 为 声明 与 定义 分 离 ， 声 明 就 是 一 个 函数 原型 ， 兄 数 原 型 应 


该 有 一 个 函数 名 字 ， 一 个 参数 列表 ， 一 个 返回 值 类 型 和 一 个 分 号 。 定 义 就 是 函数 的 
内 在 ， 花 括号 内 的 就 是 函数 的 定义 : 


AR 
int function(int arg_1, float arg_2)， 
/A 
int main(int argc, char* argv[]) 
{ 
int output = function(11, 22.0); 
printf("%d\n",output); 


return 0， 
} 
int function(int arg_1, float arg_2) 
{ 
int return value = arg 1; 
float temp_float = arg 2; 


return return_ Value ， 


} 


依 上 所 述 ， 当 非 必 要 时 ， 在 自己 编写 函数 的 时 候 请 注意 在 开头 (main 却 数 之 前 ) 写 上 
你 的 函数 的 原型 ， 并 且 在 末尾 ( main 函数 之 后 ) 写 上 你 的 函数 定义 ， 这 是 一 个 很 好 
的 习惯 以 及 规范 。 所 谓 代码 整洁 之 道 ， 就 是 如 此 。 


函数 的 另 一 种 分 类 是 ， 有 返回 值 和 无 返回 值 ， 返回 值 的 类 型 可 以 是 内 建 (build-in) 的 
也 可 以 是 自己 定义 的 ( struct，union 之 类 )， 无 返回 值 则 是 void 。 


1. 为 什么 我 们 十 分 谴责 void main() 这 种 写法 ?因为 这 完全 是 中 国 式 教育 延伸 
出 来 的 谭 式 写法 ，main 鸣 数 的 返回 值 看 似 无 用 ， 实 际 上 是 由 操作 系统 接收 ， 在 
Windows 操 作 系 统 下 也 许 无 其 "大 碍 "(实际 上 有 ), 当 你 使 用 Linux 的 过 程 中 你 会 清 
晰 的 发 现 一 个 C 语 言 程序 的 main 返 回 值 关系 到 一 个 系统 是 否 能 正常 ， 高 效 的 运 
行 ， 这 里 稍微 提 一 名 ， 6 在 Linux 程 序 管道 通信 间 代 表 着 无 错 可 行 的 意思 。 所 
以 请 扔 掉 void main 这 种 写法 。 

2. 为 什么 我 们 对 main() 这 种 省 略 返 回 值 的 写法 置 有 微 词 ? 能 发 明 这 种 写法 的 
人 ， 必 定 是 了 解 了 ， 在 C 语 言 中 ， 如 果 一 个 函数 不 显 式 声明 自己 的 返回 值 ， 那 
么 会 被 缺 省 认为 是 int ， 但 这 一 步 是 由 编译 器 掌控 ， 然 而 C 语 言 设计 之 初 便 是 
让 我 们 对 一 切 尽 可 能 的 掌握 ， 而 一 切 不 确定 因子 我 们 都 不 应 该 让 它 存在 。 其 次 
有 一 个 原则 ， 能 自己 做 的 就 不 要 让 编译 器 做 。 


3. 为 什么 我 们 对 参数 放空 置 有 不 满 (int main())? 在 C 语 言 中 ， 一 个 函数 的 参数 列表 
有 三 种 合法 形态 : 


int function(); 

int function(void ) ， 

int function(int arg_n); 

int function(int arg_n, ...); 


第 一 种 代表 拥有 未 知 个 参数 ,第 二 种 代表 没有 参数 ， 第 三 种 代表 有 一 个 参数 ， 第 
四 种 代表 拥有 未 知 个 参数 ， 并 且 第 一 个 参数 类 型 为 int, 未 知 参 数 在 Ci 语言 中 有 一 
个 解决 方案 就 是 ， 可 变 长 的 参数 列表 ， 具 体 参 考 C 标 准 库 ， 在 此 我 们 解释 的 依 
据 就 是 ， 我 们 要 将 一 切 都 掌控 在 自己 的 手中 ， 我 们 不 在 括号 内 填写 参数 ， 代 表 
着 我 们 认为 一 开始 的 意思 是 它 为 空 ， 正 因此 我 们 就 应 该 明确 说 明 它 为 void, 而 不 
该 让 它 成 为 一 个 未 知 参数 长 度 的 函数 ， 如 此 在 你 不 小 心 传 入 参数 的 时 候 ， 编 译 
器 也 无 法 发 现 错误 。 


int main(int argc，char* argv[]) 和 int main(void) 才 是 我 们 该 写 
的 C 语 言 标准 形 式 

对 于 缩 进 ， 除 了 编译 器 提供 的 符号 缩 进 之 外 ， 我 们 可 以 自己 给 自己 一 个 规范 (请 
少 用 或 者 不 用 Tab)， 比 如 每 一 块 代码 相 教 上 一 个 代码 块 有 4 格 的 缩 进 。 

对 于 学 习 C 语 言 ， 请 使 用 .c 文 件 以 及 C 语 言 编译 器 练习 以 及 编写 C 程 序 ， 请 不 要 
再 使 用 C++ 的 文件 编写 C 语 言 程 序 ， 并 且 自 圆 其 说 为 了 效率 而 使 用 C++ 的 特性 
在 C 语 言 中 ， 我 们 是 祖国 的 下 一 代 ， 是 祖国 的 未 来 ， 请 不 要 让 自己 毁 在 当下 ， 
珍爱 编程 ， 远 离 清华 大 学 出 版 社 


之 所 以 如 此 手 述 ， 并 不 是 因为 情绪 ， 而 是 当 昌 如 此 ， 下 方 代码 : 


/*file: test.c*/ 
#include <stdio.h> 
#define SIZES 5 
int main(void) 


{ 
int* c_ pointer = malloc(SIZES * sizeof(int)); 
/* 发 生 了 一 些 事情 */ 
free(c_pointer); 
return 0,; 
} 


说 当 你 将 文件 扩展 名 由 .c 改 为 .cpp 之 后 ， 它 能 编译 通过 吗 ? 答案 是 不 能 。 


为 什么 ?答案 是 C++ 并 不 支持 void* 隐 式 转换 为 其 他 类 型 的 指针 ， 但 是 C 语 言 
人 允许。 还 有 许 许 多 多 C 于 C++ 不 相同 的 地 方 ， 兴 许 有 人 说 C++ 是 C 的 超 集 ， 但 我 
并 不 这 么 认为 ， 一 门 语言 的 出 现 便 有 它 的 意义 所 在 ， 关 键 在 于 我 们 如 何 发 挥 它 
的 最 大 优势 ， 而 不 是 通过 混 消 概念 来 增强 实用 性 


程序 式 子 的 写法 


一 个 人 活 在 世界 上 ， 时 时 刻 刻 都 注意 着 自己 的 言行 举止 ， 而 写 程序 也 是 如 此 ， 
对 于 一 个 规范 的 能 让 别人 读 懂 的 程序 而 言 ， 我 们 应 该 尽 可 能 减少 阻碍 因子 ， 例 
如 : 


int main(void) 

{int complex_int=100; 

i KX 

for(int temp=0;temp<complex_int;++temp){k=temp; 
x=k+complex_int;} 

printf(complex_int="%d is k=%d x=%d\n",complex_int,k,x); 
return 0;} 


对 于 上 述 的 代码 ， 我 总 是 在 班级 里 的 同学 手下 出 现 ， 但 这 段 代 码 除了 让 别人 轩 
惑 以 外 ， 自 己 在 调试 的 时 候 也 是 十 分 不 方便 ， 每 每 遇 到 问题 了 ， 即 便 IDE 提 示 
了 在 某 处 错误 ， 你 也 找 不 到 问题 所 在 ， 经 常 有 人 来 问 我 哪里 错 了 ， 大 部 分 情况 
都 是 少 了 分 号 ， 括 号 ， 或 者 作用 域 超过 ， 原 因 在 哪 ? 


要 是 一 开始 将 代码 写 清楚 了 》 这 种 情况 简 直 是 凤 毛 甩 角 ? 想 遇 遇 上 都 难 9 对 于 一 
个 代码 而 言 ， 我 们 应 该 注意 让 其 变 得 清晰 。 


o 等 号 两 边 使 用 空格 : 


int complex_int = 100; 


o 使 用 多 个 变量 的 声明 定义 ， 或 者 函数 声明 定义 ， 函 数 使 用 时 ， 注 意 用 空格 
分 开 变 量 


int 工 j，K，X;// 但 是 十 分 不 建议 这 么 声明 难以 理解 意义 的 变 

printf("complex_ int = %d is k = %d x = %d\n", i 
ee SY) 

void present(int arg 1, double arg 2); 


o 对 于 一 个 清晰 的 程序 而 言 ， 我 们 要 让 每 一 个 步骤 清晰 且 有 意义 ， 这 就 要 求 
我 们 在 编写 程序 的 时 候 尽量 能 让 代码 看 起 来 结构 化 ， 或 者 整体 化 。 尽 量 让 
ee。 | ， 如 果 有 特别 的 需要 让 多 个 式 子 写 在 同一 行 ， 可 以 使 

操作 符 进 行 组 合 ， 但 是 会 让 程序 更 难 理解 ， 日 后 调试 的 时 候 也 更 难 
o 


/A*Style 1*/ 
for(int temp = 0;temp < complex_int;++temp) 
{ 
k = temp; 
x = k + complex_int; 
} 
/*Style 2*/ 
for(int temp = 0;temp < complex_int;++temp)t 
k = temp; 
x = k + complex_int; 


对 于 上 方 的 代码 ， 是 C 语 言 代 码 花 括号 的 两 种 风格 ， 最 好 能 选择 其 中 一 种 
作为 自己 的 编程 风格 ， 这 样 能 让 你 的 程序 看 起 来 更 加 清晰 ， 混 合 使 用 的 利 
弊 并 不 好 说 ， 关 键 还 是 看 个 人 风格 。 


o 对 于 作用 域 而 言 ， 在 C 语 言 中 有 一 个 经 常 被 使 用 的 特例 ， 当 一 个 条 件 语 
多 ， 或 者 循环 只 有 一 条 语 龟 的 时 候 ， 我 们 常常 省 略 了 花 括 号 {} ， 而 是 仅 
仅 使 用 一 个 分 号 作为 结尾 ， 这 在 很 多 情况 下 让 代码 不 再 吧 嗪 : 


if(pointo_int == NULL ) 
fprintf(stderr, "The pointer is NULL!'\n"); 
else 


{ 
printf("%d\n",*pointo_int); 
pointo_int = pointo_int->next; 


在 这 段 代 码 中 if 语句 下 方 的 代码 并 没有 使 用 {} 运算 符 进行 指明 ， 但 是 
根据 语法 ， 该 语句 的 确 是 属于 if 语句 的 作用 范围 内 ， Se 写 上 
了 { 反而 会 令 代 码 看 起 来 过 于 哆 嗪 。 但 是 有 的 时 候 ， 这 条 特性 并 不 是 那 


么 的 有 趣 ， 当 使 用 贬 套 功能 的 时 候 ， 还 是 建议 使 用 {} 进行 显 式 的 范围 规 
定 ， 而 不 是 使 用 默认 的 作用 域 : 


For(int 1 On IO) 
for(int k = 0;k < 10;++k) 
while(flag != 1) 
set_value(arr[i]l[k]); 


这 段 代码 ， 看 起 来 十 分 简洁 ， 但 是 确实 是 一 个 很 大 的 隐患 ， 当 我 们 要 调试 
这 段 代码 的 时 候 ， 总 是 需要 修改 它 的 构造 ， 而 这 就 带 来 了 潜在 的 隐患 。 所 
以 建议 在 使 用 网 套 的 时 候 ， 无 论 什 么 情况 ， 都 能 使 用 {} 进行 包装 。 


综 上 所 述 ， 在 开始 编写 一 个 标准 C 语 言 程 序 的 时 候 ， 请 先 把 下 面 这 些 东 西 写 上 : 
#include <stdio.h> 
int main(void) 


{ 


return 0， 


对 于 main 的 参数 ， 有 兴趣 的 可 以 查阅 我 的 文章 ， 或 者 自行 谷歌 ， 在 此 问题 上 百度 
也 是 可 以 的 。 


0x04 C 代 码 规范 
命名 


o 只 要 提 到 代码 规范 ， 就 不 得 不 说 的 一 个 问题 。 

o 在 一 些小 的 演示 程序 中 ， 也 许 费 尽心 思 去 构思 一 个 命名 是 一 件 十 分 傻 的 
行为 ， 但 是 只 要 程序 上 升 到 你 需要 严正 设计 ， 思 考 ， 复 查 的 层次 ， 你 就 需 
要 好 好 考虑 命名 这 个 问题 。 

o 函数 命名 : 


GCC 


C 语 瑟 言 中 ， 我 们 可 以 让 下 划 线 或 者 词 汇 帮 助 我 们 表达 


i 前 级 : 
i set 可 以 表示 设置 一 个 参数 为 某 值 
ii get 可 以 表示 获取 某 一 个 参数 的 值 
ii is 可 以 表示 询问 是 否 是 这 种 情况 


i max/min 可 以 表示 某 种 操作 的 最 大 (小 ) 次 数 
ii cnt 可 以 表示 当前 的 操作 次 数 
让。 key 某 种 关键 什 


size_t get_counts( ) ， 
Slze _t retry max(); 
int is_ empty(); 


四 需要 注意 的 只 是 ， 不 要 让 命名 过 于 坎 述 其 义 ， 只 简单 保留 动作 以 及 目 
的 即 可 ， 详 细 功 能 可 以 通过 文档 来 进行 进一步 的 解释 。 
o 结构 体 命 名 


@ 由 于 结构 体 的 标签 ， 不 会 污染 命名 ， 即 标签 不 在 命名 搜索 范围 之 内 ， 
ee nd 


i 有 人 习惯 使 用 typedef ,而 有 人 喜欢 使 用 struct tag 
obj ， 后 者 比较 多 ， 但 是 前 者 也 不 失 为 一 种 好 方法 ， 仁 者 见 仁 智 
者 见 智 。 


2 ep PA 

struct inetaddr_4f{ 
int port,; 
char * name; 

}; 

struct inetaddr 4 *addr_info; 

7 7 

typedef struct _addr{ 
int port,; 
char * name; 

}inetaddr_4; 

inetaddr 4 *addr_info 2; 


两 者 同 处 一 个 文件 内 亦 不 会 发 生 编 译 错误 。 
变量 命名 


@ 所 有 字符 都 使 用 小 写 

四 含义 多 的 可 以 用 进行 辅助 

四 以 = 为 标准 进行 对 齐 

四 类 型 ， 变 量 名 左 对 齐 

加 py 一 个 空格 。 


int main(void) 


{ 
int counts = 0; 
inetaddr_4 *addr = NULL; 
return 0O; 

} 


为 了 防止 指针 声明 定义 时 候 出 错 ， 将 * 紧 贴 着 变量 名 总 不 会 出 错 。 


inetaddr_4 *addr, object, *addr_2; 


其 中 addr 和 addr 2 是 指针 ， 而 object 则 是 一 个 栈 上 的 完整 
二 ， 并 不 是 指针 。 


a 全 局 变量 能 少 用 就 少 用 ， 必 须要 用 的 情况 下 ， 可 以 考虑 添加 前 级 g_ 


int g_counts; 


o #define 命名 


和 所 有 字符 都 是 用 大 写 ， 并 用 ” 进行 分 害 
昌 如 果 多 于 一 个 语句 ， 使 用 dof{...}while(0) 进行 包 衰 ， 防 止 ， 


错误 。 
#define SWAP(x, y) \ 
dof{ \ 
x=x + y; \ 
y=x-y; \ 
x=x - y; \ 
}while(0) 


当然 这 个 交换 宏 实 际 上 有 一 点 缺陷 ， 在 大 后 方 会 提出 。 此 处 是 代码 规 
范 ， 就 不 重复 强调 。 


o ”enum 命名 


所 有 字符 都 是 用 大 写 ， 并 用  ” 进 a 
上 四 与 define 相 比 ，enum 适用 于 后 
独立 的 常量 。 往 往 出 现 都 是 成 组 。 


. 
De 
全 
和 
hd 
如 
地 
EY 
pA 
部 
攻 
| 


1. 格式 化 代码 
o 花 括 号 全 


四 混合 使 用 符合 节俭 思想 ， 但 会 稍微 有 一 点 结构 系 乱 。 

@ 单一 使 用 能 更 好 让 代码 结构 清晰 。 

四 所 谓 混合 ， 单 一 指 的 是 是 否 一 直 使 用 {} 进行 代码 包 

有 人 认为 当 单一 语句 的 时 候 不 必要 添加 人 en 习惯 添加 

@ 当 作 用 域 超过 一 个 屏幕 的 时 候 ， 可 以 适当 的 使 用 注释 来 指明 {} 作 
用 域 


while(1)t{ 
if(tmp == NULL){ 


break; 
} 
else if(fanny == 1){ 
， 大 概 超过 了 一 个 屏幕 的 代码 


} /*else if fanny*/ 
}/*end while*/ 


如 果 是 代码 量 少 的 情况 下 ， 但 上 歇 套 比较 多 ， 也 可 以 使 用 这 个 方式 进行 
注释 。 


mn 有 人 建议 除了 函数 调用 以 外 ， 在 条 件 语 句 等 类 似 情况 下 使 用 () 要 
在 关键 字 后 空 一 格 ， 再 接 上 () 语句 ， 对 于 这 一 点 ， 我 个 人 习惯 是 
不 空格 ， 但 总 有 这 种 说 法 。 


if (Space == NULL) { 
A TODOS 
} 
while(1){ 
/xx 我 习惯 于 如 此 写 **/ 
} 
strcpy(str1i，str2); /** 第 一 种 写法 是 为 了 和 部 数 调用 写法 进 
行 区 分 **/ 
return 0， 


o Switch 
一 定 要 放 一 个 default 在 最 后 ， 即 使 它 永 远 不 会 用 到 。 


m 每 个 case 如 果 需 要 使 用 新 变量 ， 可 以 用 {} 包 衰 起 来 ， 并 在 里 
面 完 成 所 有 操作 。 


switch(...) 


{ 
case 1: 
/**TODO**/ 
break; 
case 2: 
{ 
int new_vari; 
/xx 创建 新 变量 则 用 {} 包 庄 起 来 **/ 
} 
break; 
default: 
call error(); 
} 


o goto 


四 虽然 许多 人 ， 许 多 书 都 提醒 不 再 使 用 goto 关键 字 ， 而 是 使 用 
setjmp 和 来 取代 它 ， 但 是 这 还 是 那 印 话 ， 仁 者 见 仁 智 
者 见 智 ， 如 果 goto 能 够 让 代码 清晰 ， 那 何 乐 而 不 为 呢 ， 这 个 观点 
也 是 最 近 才 体会 到 的 (并 非 我 一 已 之 言 ) 。 
@ 具体 使 用 可 以 查询 官方 文档 。 


。 语 名 


@ 应 该 让 完整 的 语句 在 每 一 行 中 ， 只 出 现 一 次 。 
对 于 变量 声明 定义 亦 是 如 此 
四 原因 是 这 样 能 让 文档 更 有 针对 性 
o 头 文 件 保护 
m 对 于 头 文件 而 言 ， 在 一 个 程序 中 有 可 能 被 多 次 包含 ( #include )， 如 


果 缺 少 头 文件 保护 ， 则 会 发 生 编译 错误 
四 不 要 将 ” 作为 宏 的 开头 或 者 结尾 。 


#ifndef VECTOR_H_INCLUDE 
#define VECTOR_H_INCLUDE 
/MODO 
#endif 


o C 语 言 的 宏 有 诸多 炊 端 ， 所 以 尽量 使 用 inline 遂 数 来 代替 宏 。 在 大 后 
方 会 有 解释 
是 ， 请 不 要 因此 抛 育 了 宏 ， 比 如 在 C11 中 有 一 个 新 兴 的 宏 。 


o 第 一 时 刻 初始 化 所 有 所 声明 的 变量 ， 因 为 这 么 做 总 没有 坏处 ， 而 且 能 减少 
出 错 的 可 能 。 

.函数 

o 函数 应 该 尽 可 能 的 短小 ， 一 个 ANSI 屏 幕 的 为 最 佳 。 

.如 果 某 个 循环 带 着 空 语句 ， 使 用 {} 进行 挂 载 ， 以 免 出 现 意外 。 


while(*is end++ != '\Q') 


ft 


虽然 是 空 的 循环 体 ， 但 是 写 出 来 以 免 造 成 误 循环 。 
. 尽量 不 要 让 函数 返回 值 直接 作为 条 件 语 旬 的 判断 ， 这 样 会 极 大 降低 可 读 性 
if(is_eof(file) == 0) 


好 过 
if(!is eof(file)) 


. 不 要 为 了 方便 或 者 一 点 点 的 所 谓 速度 提升 (也 许 根本 没有 )， 而 放弃 可 读 性 ， 使 
用 许 入 式 的 赋值 语句 


int add = 10; 
int num = 11; 
int thr = 20; 
add = add + thr; 
num = add + 20; 
不 要 写成 
num = (add = add + thr) + 20; 


浮 点 数 


@ 万 万 记 住 不 要 再 使 用 浮 点 数 比 较 彼 此 是 否 相 等 或 不 等 。 
@ 如 果 把 浮 点 数 用 在 离散 性 的 数据 上 ， 上 比如 循环 计数 器 ， 那 就 等 死 吧 。 


其 他 


e 使 用 #if 而 不 是 #ifdef 
e。 可 以 使 用 define() 来 代替 #ifdef 的 功能 


#if !define(USERS _ DEFINE) 
#define USERS DEFINE ... 
#endif 


。 对 于 某 些 大 段 需要 消除 的 代码 ， 我 们 不 能 使 用 注释 /**/ ， 因 为 注释 不 能 
谣 着 注释 ( // 除外 )， 我 们 可 以 使 用 黑 魔 法 : 


#1if NOT_DECLARATION 
/** 想 要 注释 的 代码 **/ 
#endif 


e 不 要 使 用 纯 数字 


o 意味 着 ， 不 在 使 用 毫 无 标记 的 数字 ， 因 为 可 能 你 过 了 几 个 月 再 看 源 代码 的 
时 候 ， 你 根本 不 知道 这 个 数字 代表 着 什么 
o 而 应 该 使 用 #define 给 它 一 个 名 字 ， 来 说 明 这 个 数字 的 意义 。 


C 代 码 规范 
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0x05-C 话 言 变 量 


C 语 言 在 明 面 上 将 数 的 变量 分 为 两 类 ， 整 型 变量 以 及 浮 点 数 ， 对 应 着 现实 世界 的 整 
数 和 小 数 。 


@ 首先 是 整数 ， 使 用 了 这 么 多 的 C 语 言 之 后 ， 每 当 在 使 用 整数 之 时 都 会 将 其 想象 
成 二 进 制 的 存在 ， 而 不 是 十 进 制 。 原 因 在 于 ， 这 是 程序 的 本 质 所 在 ， 稍 有 研究 
编译 器 工作 原理 的 都 会 发 现 ， 在 编译 器 处 理 乘 法 乃至 除法 的 时 候 ， 优 秀 的 编译 
器 总 会 想方设法 的 加 快 程序 的 速度 ， 毫 无 疑问 在 所 有 运算 中 移 位 运算 是 最 快速 
的 "乘法 "以 及 "除法 
<2% 49 18>>2==2 


而 正常 一 个 乘法 相当 于 十 数 次 的 加 法 运算 的 时 间 消 耗 ， 移 位 则 不 用 (除法 的 消耗 
更 大 ， 但 是 随 着 CPU 的 进步 ， 这 些 差距 正在 逐渐 缩小 ， 就 目前 来 看 依旧 是 有 着 
不 小 的 差距 但 无 论 如 何 优化 ， 乘 法 时 间 都 会 大 于 加 法 )。 正 如 前 面 所 说 ，C 语 言 
设计 之 初 便 是 给 了 程序 员 所 有 的 权利 ， 而 程序 员 要 做 的 就 是 掌控 所 有 能 掌控 

的 ， 即 便 是 数 的 计算 亦 是 如 此 ， 比 如 在 优秀 的 编译 器 看 来 : 

2*7 ====> (2<<3) - 2 

5*31 ====> (5<<5) - 5 

毫 无 疑问 经 过 编译 器 优化 后 的 代码 此 前 者 要 快 许多 。 这 就 是 为 什么 我 们 要 将 一 
个 数 看 作 二 进 制 ， 这 不 仅仅 是 表面 ， 而 是 要 在 深层 次 的 认为 它 是 二 进 制 ， 总 体 
来 说 C 语 言 的 整 型 是 非常 简洁 明了 的 总 体 分 为 有 符号 和 无 符号 ， 很 好 理解 只 
需要 注意 不 要 让 无 符号 数 进行 负数 的 运算 ， 这 里 有 一 个 原则 ， 可 以 很 好 的 规避 
这 种 无 意 之 过 ， 不 把 无 符号 类 型 变量 和 有 符号 类 型 变量 放 于 同一 运 工 中 ， 时 刻 
记得 保持 式 子 的 类 型 一 致 是 设计 时 的 保障 。 


@ 浮 点 数 ， 由 于 实数 域 可 以 看 作 稠 密 的 ， 故 除了 整数 以 外 ， 还 有 无 数 的 小 数 ， 而 
小 数 在 计算 机 中 如 何 表 示 ? 一 种 无 限 的 状态 是 无 法 在 计算 机 中 被 精确 表示 ， 所 
以 有 了 浮 点 法 ， 关 于 浮 点 法 可 以 参考 书籍 《深入 理解 计算 机 系统 》。 

这 里 介绍 的 是 在 C 语 言 中 我 们 应 该 如 何 正确 使 用 浮 点 数 ? 很 多 人 (包括 我 ) 在 初 作 
之 时 总 是 想当然 的 以 为 计算 机 是 无 所 不 能 的 ， 连 人 类 都 无 法 完全 表达 出 来 的 小 
数 计 算 机 一 定 可 以 ， 实 际 上 并 非 如 此 ， 在 这 里 我 可 以 说 ， 计算 机 只 是 近似 表 
达 ， 而 最 大 的 总 讳 的 便 是 将 两 个 浮 点 数 进行 比较 ， 此 处 介绍 一 种 浮 点 数 常用 的 
比较 方法 ， 精 确 度 法 : 


#define DISTANCE 0.00000001 


flLoat fx 1 2005> 
faloat emi sx 2 ORNS, 
if(f x 1 - f x 2 < DISTANCE) 
printf("They are Equal\n"); 
else 
printf("Different\n"); 


所 以 说 ， 在 很 大 程度 上 ， 当 你 在 程序 中 使 用 了 浮 点 数 ， 又 直接 使 用 浮 点 数 进行 
比较 ， 却 发 现 始终 无 法 达到 预期 效果 ， 那 么 你 可 以 检查 一 下 ， 是 否 是 这 个 原 
， 在 这 一 点 上 ， 不 得 不 说 是 C 语 言 的 一 个 缺憾 。 


指针 变量 ， 是 一 种 比较 特别 的 变量 ， 以 至 于 总 是 对 它 进行 特别 对 待 。 这 里 有 几 
个 原则 : 


o 两 个 不 相关 的 指针 进行 加 减 操作 是 无 意义 的 

o 始终 确保 自己 能 够 找到 分 配 的 内 存 

o 无 论 何 时 何 地 何 种 情况 ， 都 要 记 住 ， 不 使 用 未 初始 化 的 指针 ， 不 让 未 使 用 

的 内 存 持 续 存 在 。 

指针 在 不 同位 的 操作 系统 上 的 大 小 是 不 一 样 的 ， 但 是 在 同一 个 操作 系统 下 ， 无 
论 什么 类 型 的 指针 都 是 相同 大 小 ， 这 涉及 到 指针 的 寻 址 问题 ，( 题 外 话 :C 语 言 的 
寻 址 实际 上 使 用 了 汇编 语言 的 间接 寻 址 ， 有 兴趣 的 可 以 自行 尝试 ， 方 法 之 一 ， 
使 用 gcc 编 译 器 的 汇编 选项 ， 产 生 汇编 代 码 ， 进 行 一 一 比 对 )， 对 于 寻 址 一 个 笼 
统一 些 的 说 法 便 是 

4Byte = 32bit 

2^32 = 46 
所 以 32 位 的 操作 系统 下 Ci 语言 指针 : 


size t what = sizeof(void*); 
printf("%d", what); 


输出 : $root@mine: 4 
对 于 大 部 分 使 用 者 来 说 ， 指 针 主 要 用 来 降低 内 存 消耗 以 及 提高 运算 效率 的 ， 这 
里 设计 许多 学 问 ， 我 也 无 法 一 一 展示 ， 上 比较 有 意思 也 常用 的 两 个 东西 便 是 递增 


以 及 语法 糖 : ++， -> 


int dupli of me[10] = {9};// 也 可 以 使 用 库 函 数 memset( ) 进 行 置 9 
int *point_to_me = dupli of_me; 
int me = 100; 
while(point to me < (dupli of me + 10)) 
*point_to me++ = me; 


其 中 *point_to_met+ = me; 在 C 语 言 应 用 广泛 它 相 当 于 是 ; 


*point_to me = me; 
point_to me++; 


的 语法 糖 ， 对 于 ++ ， 在 非 必 要 的 情况 下 ， 请 使 用 前 组 递增 ， 而 非 后 组 递增 ， 
原因 是 消耗 问题 ， 仔 细 想 想 这 两 种 递增 的 区 别 在 何 处 了 

前 组 递增 总 是 在 原 数 上 进行 递增 操作 ， 然 而 后 组 递增 呢 ? 它 首 先 捞 贝 一 份 原 数 
放 于 别处 ， 并 且 递 增 这 份 拷贝 ， 在 原 数 进行 的 操作 完毕 后 ， 将 这 份 拷贝 再 拷贝 
进 原 数 取代 它 ， 此 中 的 操作 涉及 的 更 多 ， 所 以 在 非 必 要 的 情况 下 ， 请 使 用 前 级 
递增 而 不 是 后 组 递增 (递减 也 是 同样 的 道理 ) 

-> 则 是 在 结构 体 上 使 用 的 非常 广泛 : 


typedef struct datat{ 
int test; 
Struct data* next; 
}my_struct; 


my_struct temp; 

my_struct *ptemp = &temp; 

ptemp->test = 100; 

ptemp->next = NULL， 

if(temp.test == 100) 
printf("Correctly!\n"); 

else 
printf("That is impossible!\n"); 


可 以 很 清楚 的 看 出 其 实 ptemp->test 便 是 (*ptemp).test 的 语法 糖 


const 是 最 常用 的 变量 限定 符 ， 它 的 意思 是 告诉 编译 器 ， 这 个 变量 或 者 对 象 
在 初始 化 以 后 不 能 被 改变 ， 常 用 它 来 保护 一 些 必 要 的 返回 值 ， 参 数 以 及 常量 的 
二 内 


volatile 这 个 关键 字 常 常 被 C 语 言 教材 所 忽略 ， 它 很 神秘 。 实 际 上 确实 如 
此 ， 他 的 作用 的 确 很 神秘 : 一 旦 使 用 了 ， 就 是 告诉 编译 器 ， 即 使 这 个 变量 没有 
被 使 用 或 修改 其 他 内 存单 元 ， 它 的 信也 可 能 发 生变 化 。 通 俗 的 说 就 是 ， 告 诉 编 
译 器 ， 不 要 把 你 的 那 一 套 优化 策略 用 在 我 身上 。 


/* 此 时 我 们 将 编译 器 优化 等 级 提高 到 -02 */ 
int test_num ”= 100; // 测 试 一 个 迭代 加 法 
int nor_result = 0; 
volatile int vol result = 0; 
/* 测试 无 VOLatile 限 定 下 ， 该 程序 的 耗 时 */ 
for(int i = 0;i < 10000;++i) 
for(int j = 0;j < 10000;++]j) 
nor_result += test_num， 


接 下 来 就 是 测试 volatile 限定 下 的 代码 


for(int i = 0;i < 10000;++I) 
for(int j = 0;j < 10000;++]j) 
Vol result += test_num; 


在 使 用 一 些 手段 后 ， 得 到 运行 时 间 ， 可 以 很 清晰 的 看 出 差别 ， 在 我 的 机 器 

上 ， i5-4CPU ， 得 到 的 结果 是 后 者 比 前 者 慢 大 概 十 五 倍 。 从 某 一 些 方向 上 证 
明了 ，volatile 的 一 些 作用 ， 比 如 调试 的 时 候 ， 或 者 一 些 特殊 用 途 。 涉 足 不 多 ， 
故 不 记录 。 


写 


变量 说 明 
extern 用 于 将 不 同文 件 的 ， 带 有 外 部 链接 性 的 变量 引用 到 本 文件 中 。 所 谓 


外 部 链接 性 就 是 可 以 被 除 本 文件 外 的 其 他 文件 "看 见 " 的 变量 ， 如 全 局 变量 ， 使 
用 方法 : 


/* 以 下 为 一 个 工程 内 可 见 

向 时 ed 本 Go 

int glo_show;// 对 于 该 全 局 变量 来 说 ， 它 们 在 声明 时 无 初始 化 ， 则 默认 初始 
为 9 

int glo_print = 10;// 声 明定 义 完成 后 ， 自 动 分 配 内 存 以 存储 信息 


人 ie2cC 
extern glo_print; // 仅 仅 是 引用 名 字 ， 并 不 会 额外 分 配 空间 
// 所 以 ， 只 需要 写 正确 变量 名 字 即 可 ， 后 方 的 初始 化 无 
须 完全 
// 因 为 变量 的 初始 化 定义 只 能 有 一 次 。 


void print() 


{ 
printf("The Globle Value is %d \n", glo_print); 


auto 可 以 姑且 和 忽略， 因为 没有 什么 实际 意义 。 


获取 


jd 


e。 变量 


格式 化 输入 输出 在 C 语 言 的 初学 中 使 用 的 比较 频繁 ， 但 是 到 后 期 会 发 现 ， 由 于 
IO 操作 过 于 消耗 资源 ， 换 名 话 来 说 就 是 会 极 大 影响 程序 的 执行 效率 ， 会 渐渐 的 
在 发 行 版 程序 中 消除 。 


o 常见 格式 化 输入 标准 函数 : sacnf ，fscanf ，sscanf 


对 于 常见 的 使 用 不 贰 述 ， 有 两 种 比较 不 常见 的 格式 : %[] 和 %* ， 前 
者 是 用 于 限制 读 取 类 型 ， 常 见于 字符 囊 的 过 滤 ( 不 是 里 正 的 过 滤 ) 


scanf("%d %[a-z]", &tmp, str); 
scanf("%d %[^i]", &tmp, str); 
scanf("%d %[^,]", &tmp, str); 


假设 输入 的 是 : 22 hello,string to me! 
读 取 到 的 分 别 为 : 22 hello 和 22 hello,str 和 22 hello 
后 者 则 是 忽略 第 一 个 输入 : 


scanf("%*d %d", &tmp); 


假设 输入 的 是 : 22 33 

读 取 到 的 则 是 : 33 

其 中 开头 的 %*d 忽略 的 输入 ， 人 必须 和 其 类 型 匹配， 例如 输入 : string 
33 则 会 读 取 失 败 。 

也 可 以 将 其 解读 为 文件 宽度 ， 例 如 在 使 用 printf 格式 化 输出 的 时 候 : 


char str[10] = "dir"; 
Dientfi( SHS A Lr) 
/* 输出 : dir */ 四 个 空白 占 位 


但 是 实际 上 scanf 并 不 太 好 用 ， 所 谓 的 好 用 指 的 是 功能 上 以 及 设计 上 的 
缺陷 ， 总 是 让 很 多 人 摸 不 着 头脑 的 出 了 错 ， 往 往 很 难 调试 。 例 如 它 会 将 每 
一 行 输入 的 \n 保留 在 输入 流 里 面 ， 这 个 缺陷 导致 如 果 不 明 所 以 得 人 将 其 
与 其 他 的 输入 函数 ， 例 如 fgets 或 者 gets 配合 会 出 现 差错 。 


C 语 言 核 心 知 识 下 


0x05-C 语 言 指针 :(Volume-1) 

这 似乎 是 一 个 很 凝重 的 话题 ， 但 是 它 真 的 很 有 趣 。 

1. 指针 是 指向 某 一 类 型 的 东西 ， 任 何 一 个 整体 ， 只 要 能 称 为 整体 就 能 拥有 它 自己 的 
独一无二 的 指针 类 型 ， 所 以 指针 的 类 型 其 实 是 近似 无 穷 无 尽 的 

2. 函数 名 在 表达 式 中 总 是 以 函数 指针 的 身份 呈现 ， 除 了 取 地 址 运算 符 以 及 sizeof 
3. C 语 言 最 星 涩 难 明 的 就 是 它 复杂 的 声明 : void (*signal(int sig, void 
(*func) (int)))(int) , 试 试 着 把 它 改写 成 容易 理解 的 形式 

4. 对 于 指针 ， 尽 最 大 的 限度 使 用 const 保护 它 ， 无 论 是 传递 给 函数 ， 还 是 自己 使 
用 


先 来 看 看 一 个 特殊 的 指针 ， 姑 且 称 它 为 指针 ， 因 为 它 依赖 于 环境 : NULL ， 是 一 个 
神奇 的 东西 。 先 附 上 定义 ， 在 编译 器 中 会 有 两 种 NULL( 每 种 环境 都 有 唯一 确定 的 
NULL): 


#define NULL 0 
#define NULL ((void*)0) 


有 什么 区 别 吗 ? 看 起 来 没什么 区 别 都 是 0 ， 只 不 过 一 个 是 常量 ， 一 个 是 地 址 为 0 的 
指针 。 
当 它 们 都 作为 指针 的 值 时 并 不 会 报错 或 者 警告 ， 即 编译 器 或 者 说 C 标 准 认为 这 是 合 
法 的 : 


int* temp_int 1 = 0; // 无 警告 
int* temp_int_2 = (void*)0; // 无 警告 
int* temp_int_3 = 10; // 出 现 警告 


为 什么 ?为 什么 可 以 赋值 给 指针 ， 但 是 19 却 不 行 ? 他 们 都 是 常量 。 
因为 C 语 言 规定 当 处 理 上 下 文 的 编译 器 发 现 常量 9 出 现在 指针 赋值 的 语句 中 ， 它 就 
作为 指针 使 用 ， 似 乎 很 扯淡 ， 可 是 却 是 如 此 。 

回 到 最 开始 ， 对 于 NULL 的 两 种 情况 ， 会 有 什么 区 别 ? 拿 字 符 串 来 说 ， 实际 上 我 是 
将 字符 数组 看 作 是 C 风 格 字符 串 。 


在 C 语 言 中 ， 字 符 数组 是 用 来 存储 一 连 串 有 意义 的 字符 ， 黑 认 在 这 些 字符 的 结尾 添 
加 '\X9' ， 好 这 里 又 出 现 了 一 个 0 值 。 


人 
用 ， 在 字符 数组 的 末尾 使 用 NULL 是 绝对 错误 的 ! 虽然 它们 的 本 质 都 是 常量 0， 但 
由 于 位 置 不 同 所 以 含义 也 不 同 。 


开胃 菜 已 过 


对 于 一 个 函数 ， 我 们 进行 参数 传递 ， 参 数 有 两 种 形式 : 形 参 与 实 参 


int function(int value) 


{ 

/ee 
} 
Ah 
function(11); 


其 中 ， value 是 形 参 ，11 是 实 参 ， en C 语 言 拥有 两 种 传递 方式 : 
按 值 传 递 和 按 址 传递 ， 但 是 你 是 否 有 认 站 研究 过 ? 给 出 一 个 实质 ， 其 实 C 语 言 
只 有 按 值 传递 ， 所 谓 按 址 传递 只 不 过 是 按 值 传 递 的 一 0 至 于 原因 稍微 一 想 便 
能 明白 。 


对 于 形 参 和 实 参 而 言 两 个 关系 紧密 ， 可 以 这 么 理解 总 是 实 参 将 自己 的 一 份 找 贝 传递 
给 形 参 ， 这 样 形 参 便 能 安全 的 使 用 实 参 的 值 ， 但 也 带 给 我 们 一 些 麻烦 ， 最 经 典 的 交 
换 两 数 


void swap_vi(int* val 1, int* val 2) 


{ 
int temp = *val 1， 
*val 1 = *val 2; 
*val 2 = *val 1; 

} 


这 就 是 所 谓 的 按 址 传递 ， 实 际 上 只 是 将 外 部 指针 ( 实 参 ) 的 值 做 一 个 拷贝 ， 传 递 给 形 
参 val 1 与 val 2 ， 实 际 上 我 们 使 用 : 


#define SWAP_V2(a, b) (a += b, b=a-b, a -= b) 
#define SWAP_V3(x, y) {xX ^= y; y ^= x; x ^= y} 


试 一 试 是 不 是 很 神奇 ， 而 且 省 去 了 函数 调用 的 时 间 ， 空 间 开 销 。 上 述 两 种 写法 的 原 
理 实质 是 一 样 的 。 


但 是 ， 动 动脑 筋 想 一 想 ， 这 种 写法 丨 的 没有 玻 竟 吗 ? 如 果 输 入 的 两 个 参数 本 就 指向 
同一 块 内 存 ， 会 发 生 什么 ? 


int test 1 = 10, test 2 = 100; 

SWAP_V2(test 1, test_ 2); 

printf("Now the test 1 is %d, test 2 is %d\n", test 1, test 2); 
.../* 恢 复原 值 */ 

SWAP_V2(test 1, test_ 1); 

printf("Now the test_ 1 is %d\n", test_1); 


$: Now the test 1 is 100, test 2 is 10 
$: Now the test 1 is 0 


对 ， 输 出 了 0 ， 为 什么 ? 稍微 动 动 脑筋 就 能 相通 ， 那 么 对 于 后 面 的 SWAP_V3 亦 是 如 
此 ， 所 以 在 芯 酌 之 下 ， 解 决 方案 应 该 尽 可 能 短小 精 悍 : 


static inline void swap_final(int* val 1, int* val_ 2) 
{ 
if(val 1 == val_ 2) 
return,; 
*val 1 A= *Vval 2; 
*val 2 A= *Vval 1; 
*val 1 A= *Vval 2; 


} 

#define SWAP(x, y) \ 

dof{ \ 
if(&x == &y) \ 

break; \ 

x A= y; \ 
VN x \ 
x A= y; \ 

}while(9) 


We 数 ， 我 们 在 此 基础 上 可 以 考虑 的 更 深远 一 些 ， 如 何 


元 些 ， 
个 交换 函数 更 加 通用 ? 即 适 用 范围 更 大 ? 暂 不 考虑 浮 点 类 型 。 提示 : 可 
而 void* 


与 上 面 的 情况 类 似 ， 偶 尔 的 不 经 意 就 会 造成 严重 的 后 果 : 


int combine_1(int* dest, int* add ) 


{ 
*dest += *add; 
*dest += *add; 
return *dest; 
} 
int combine 2(int* dest, int* add) 
{ 
*dest += 2 * (*add);// 在 不 确定 优先 级 时 用 括号 是 一 个 明智 的 选择 
return *dest,; 
} 


上 述 两 个 函数 的 功能 一 样 吗 ? 思 看 起 来 是 一 样 的 


int test 3 = 10，test 4 = 100; 


Combine_1(&test_ 3, &test 4); 


printf("After combine_1, test_3 = %d\n",test_ 3); 


.,./* 恢 复原 值 */ 
combine 2(&test 3, &test 4); 


printf("After combine 2, test_3 = %d\n",test 3); 


$: After combine 1, test 3 = 210 
$: After combine 2, test 3 = 210 
如 果 传 入 两 个 同一 对 象 呢 ? 

./* 恢 复 test_3 原 值 */ 


combine_ 1i(&test 3, &test 3); 
printf("After second times combine_ 1, test_3 


combine 2(&test 3, &test_ 3); 
printf("After second times combine 2, test_3 


输出 
$: After second times combine 1, test 3 = 40 
$: After second times combine 2, test 3 = 30 


知道 真相 总 是 令 人 吃惊 ， 指 针 也 是 那么 令 人 又 爱 又 恨 。 


e C99 标准 之 后 出 现 了 一 个 新 的 关键 字 ， restrict 


o 首先 这 个 关键 字 是 写 给 编译 器 看 的 


o。 其 次 这 个 关键 字 的 作用 在 于 辅助 编译 器 更 好 的 优化 该 程序 (后 方 文章 会 有 


) 
后 ， 如 果 不 熟 悉 ， 绝 对 不 要 乱用 这 个 关键 字 。 


0 
并 疏 


关于 数组 的 那些 事 


%d\n", test_ 3); 


%d\n",test_ 3); 


， 被 用 于 修饰 指针 ， 它 并 
没有 太 多 的 显 式 作用 ， 甚 至 加 与 不 加 ， 在 你 自己 看 来 ， 效 果 毫 无 区 别 。 但 是 
反观 标准 库 的 代码 中 ， 许 多 地 方 都 使 用 了 该 关键 字 ， 这 是 为 何 


介 


数组 和 指针 一 样 吗 ? 
不 一 祥 


要 时 刻 记 住 ， 数 组 与 指针 是 不 同 的 东西 。 但 是 为 什么 下 面 代码 是 正确 的 ? 


int arr[10] = {10, 9, 8, 7}; 
int* parr = arr; 


我 们 还 是 那 名 话 ， 结 合 上 下 文 ， 编 译 器 推出 arr 处 于 赋值 操作 符 的 右 侧 ， 默 默 的 
将 他 转换 为 对 应 类 型 的 指针 ， 而 我 们 在 使 用 arr 时 也 总 是 将 其 当成 是 指向 该 数组 
内 存 块 首位 的 指针 。 


//int function2(const int test arr[10] 
//int function2(const int test_arr[]) 考虑 这 三 种 写法 是 否 一 样 
int function2(const int* test_arr) 


t 


return sizeof(test_ arr); 


int size out = sizeof(arr); 
int size in = function2(arr); 


printf("size out = %d, size_ in = %d\n", size out, size_in); 


输出 : size out = 40, size in = 8 


这 就 是 为 什么 数组 与 指针 不 同 的 原因 所 在 ， 在 外 部 即 定义 数组 的 代码 块 中 ， 编 译 器 
通过 上 下 文 发 觉 此 处 rr 是 一 个 数组 ， 而 arr 代表 的 是 一 个 指向 10 个 int 类 型 的 数组 
的 指针 ， 只 所 谓 最 开始 的 代码 是 正确 的 ， 只 是 因为 这 种 用 法 比较 多 ， 就 成 了 标准 的 
一 部 分 。 就 像 世 上 本 没有 路 ， 走 的 多 了 就 成 了 路 。" 正 确 "的 该 怎么 写 


int (*p)[10] = &arr; 


此 时 p 的 类 型 就 是 一 个 指向 含有 10 个 元 素 的 数组 的 指针 ,此 时 (*p)[9] 产生 的 效 
果 是 arr[9] ， 也 就 是 parr[9] ， 但 是 (*p) 呢 ? 这 里 不 记录 ， 结 果 是 会 溢出 ， 
为 什么 ? 


这 就 是 数组 与 指针 的 区 别 与 联系 ， 但 是 既然 我 们 可 以 使 用 像 parr 这 样 的 指针 ， 又 
为 什么 要 写成 int (*p)[190] 这 样 卫 陋 不 埃 的 模式 呢 ? 原 因 如 下 : 


。 回 到 最 开始 说 过 的 传递 方式 ， 按 值 传递 在 传递 arr 时 只 是 纯粹 的 将 其 值 进行 
传递 ， 而 丢失 了 上 下 文 的 它 只 是 一 个 首 通 指针 ， 只 不 过 我 们 程序 员 知 道 它 指向 
了 一 块 有 意义 的 内 存 的 起 始 位 置 ， 我 想 要 将 数组 的 信息 一 起 传递 ， 除 了 额外 增 
加 一 个 参数 用 来 记录 数组 的 长 度 以 外 ， 也 可 以 使 用 这 个 方法 ， 传 递 一 个 指向 数 
组 的 指针 这 样 我 们 就 能 只 传递 一 个 参数 而 保留 所 有 信息 。 但 这 么 做 的 也 有 限 
制 :对 于 不 同 大 小 ， 或 者 不 同 存储 类 型 的 数组 而 言 ， 它 们 的 类 型 也 有 所 不 同 


int arr 2[5]; 

int (*p 2)[5] = &arr_2; 
float arr_3[5]; 

float (*p 3)[5] = &arr_3; 


如 上 所 示 ， 指 向 数组 的 指针 必须 明确 指定 数组 的 大 小 ， 数 组 存储 类 型 ， 这 就 让 
指向 数组 的 指针 有 了 比较 大 的 限制 。 


e@ 这 种 用 法 在 多 维 数 组 中 使 用 的 比较 多 ， 但 总 体 来 说 平常 用 的 并 不 多 ， 就 我 而 
言 ， 更 倾向 于 使 用 一 维 数组 来 表示 多 维 数组 ， 实 际 上 诚 如 前 面 所 述 ，C 语 言 是 
一 个 非常 简洁 的 语言 ， 它 没有 太 多 的 废话 ， 就 本 质 而 言 C 语 言 并 没有 多 维 数 
组 ， 因 为 内 存 是 一 种 线性 存在 ， 即 便 是 多 维 数组 也 是 实现 成 一 维 数组 的 形式 。 

o 就 多 维 数 组 在 这 里 解释 一 下 。 所 谓 多 维 数组 就 是 将 若干 个 降 一 维 的 数组 组 
合 在 一 起 ， 降 一 维 的 数组 又 由 若干 个 更 降 一 维 的 数组 组 合 在 一 起 ， 直 到 最 
低 的 一 维 数组 ， 举 个 例子 : 


int dou_arr[5][3]; 就 这 个 二 维 数 组 而 言 ， 将 5 个 每 个 为 3 个 int 类 型 的 数组 
组 合 在 一 起 ， 要 想 指向 这 个 数组 该 怎么 做 ? 


&dou_arr[0]; 
&dou_arr; 
dou_arr; 


int (*p)[3] 
int (*dou_p)[5][3] 
int (*what_p)[3] 


实际 上 多 维 数 组 只 是 将 多 个 降 一 维 的 数组 组 合 在 一 起 ， 令 索引 时 比较 直观 
而 已 。 当 站 正 理解 了 内 存 的 使 用 ， 反 而 会 觉得 多 维 数组 带 给 自己 更 多 限制 
对 于 第 三 名 的 解释 ， 当 数组 名 出 现在 赋值 号 右 侧 时 ， 它 将 是 一 个 指针 ， 类 


型 则 是 指向 该 数组 元 素 的 类 型 ， 而 对 于 一 个 多 维 数组 来 说 ， 其 元 素 类 型 则 
是 其 降 一 维 数组 ， 即 指向 该 降 一 维 数组 的 指针 类 型 。 这 个 解释 有 点 绕 ， 自 
已 动手 写 一 写 就 好 很 多 。 


对 于 某 种 形式 下 的 操作 ， 我 们 总 是 自然 的 将 相似 的 行为 结合 在 一 起 考虑 。 考 虑 如 下 
代码 : 


int* arr 3[5] 24 
int* p_4 = arr_3; 


printf("%d == %d == %d ?\n", arr_3[2], *(p_4 + 2), *(arr_3 + 2)) 


,x 


PFT on eas hha ， [] 操作 在 大 多 数 情况 下 
能 有 相同 的 结果 ， 对 于 指针 而 言 *(p_4 + 2) 相当 于 p_4[2] ， 也 就 是 

说 [] 便 是 指针 运算 的 语法 糖 ， 有 意思 的 是 2[p_4] 也 相当 

于 p 4[2] ， "Iamastring"[2] == 'm' ， 但 这 只 是 娱乐 而 已 ， 实 际 中 请 不 要 这 

么 做 ， 除 非 是 代码 混乱 大 赛 或 者 某 些 特殊 用 途 。 在 此 处 ， 应 该 声明 的 是 这 几 种 写法 

的 执行 效率 完全 一 致 ， 并 不 存在 一 个 指针 运算 便 快 于 [] 运算 ， 这 些 说 法 都 是 上 个 

世纪 的 说 法 了 ， 随 着 时 代 的 发 展 ， 我 们 应 该 更 加 注重 代码 整洁 之 道 


在 此 处 还 有 一 种 奇异 又 实用 的 技巧 ， 在 char 数 组 中 使 用 指针 运算 进行 操作 ， 提 取 不 
同类 型 的 数据 ， 或 者 是 在 不 同类 型 数组 中 ， 使 用 char* 指针 抽取 其 中 内 容 ， 才 是 
显示 指针 运算 的 用 途 。 但 在 使 用 不 同类 型 指针 操作 内 存 块 的 时 候 需 要 注意 ， 不 要 操 
作 无 意义 的 区 域 或 者 越界 操作 。 


实际 上 ， 最 简单 的 安全 研究 之 一 ， 便 是 利用 溢出 进行 攻击 。 


Advance: 对 于 一 个 函数 中 的 某 个 数组 的 增长 方向 ， 总 是 向 着 返回 地 址 的 ， 中 间 可 
能 隔 着 许多 其 他 自动 变量 ， 我 们 只 需要 一 直 进行 溢出 试验 ， 直 到 某 一 次 ， 该 函数 无 
法 正常 返回 了 | 那 就 证 明 我 们 找到 了 该 函数 的 返回 地 址 存储 地 区 ， 这 时 候 我 们 可 以 

进行 一 些 操作 ， 例 如 将 我 们 想 要 的 返回 地 址 履 盖 掉 原 先 的 返回 地 址 ， 这 就 是 所 谓 的 
溢出 攻击 中 的 一 种 。 


0x05-C 语 言 指针 (Volume-2) 
内 存 的 使 用 的 那些 事 几 


你 一 直 以 为 你 操作 的 是 站 实 物理 内 存 ， 实 际 上 并 不 是 ， 你 操作 的 只 是 操作 系统 为 你 
分 配 的 资格 虚拟 地 址 ， 但 这 并 不 意味 着 我 们 可 以 无 限 使 用 内 存 ， 那 内 存 卖 那么 贵 干 
嘛 ， 实 际 上 存储 数据 的 还 是 物理 内 存 ， 只 不 过 在 操作 系统 这 个 中 介 的 介入 情况 下 ， 
不 同 程序 窗口 (可 以 是 相同 程序 ) 可 以 共享 使 用 同一 块 内 存 区 域 ， 一 旦 某 个 傻 大 个 程 
序 的 使 用 让 物理 内 存 不 足 了 ， 我 们 就 会 把 某 些 没 用 到 的 数据 写 到 你 的 硬盘 上 去 ， 之 
后 再 使 用 时 ， 从 硬盘 读 回 。 这 个 特性 会 导致 什么 呢 ? 假设 你 在 Windows 上 使 用 了 多 
窗口 ， 打 开 了 两 个 相同 的 程序 : 


int stay_here; 
char tran_to_int[100]; 
printf("Address: %p\n", &stay_here); 


fgets(tran to_int, sizeof(tran_ to_int), stdin); 
sscanf(tran_ to _ int, "%d", &stay_here); 


for(;;) 

{ 
printf("%d\n", stay_here); 
getchar(); 
++stay_here; 


对 此 程序 (引用 前 桥 和 弥 的 例子 )， 每 融 击 一 次 回 车 ， 值 加 1。 当 你 同时 打开 两 个 该 程 
序 时 ， 你 会 发 现 ， 两 个 程序 的 stay_here 都 是 在 同一 个 地 址 ， 但 对 它 进行 分 别 操 
作 时 ， 产 生 的 结果 是 独立 的 ! 这 在 某 一 方面 验证 了 虚拟 地 址 的 合理 性 。 虚 拟 地 址 的 
意义 就 在 于 ， 即 使 一 个 程序 出 现 了 错误 ， 导 致 所 在 内 存 完 蛋 了 ， 也 不 会 影响 到 其 他 
进程 。 对 于 程序 中 部 的 两 个 读 取 语 钉 ， 是 一 种 理解 C 语 言 输入 流 本 质 的 好 例子 ， 建 
议 查询 用 法 ， 这 里 稍微 解释 一 下 


e 通俗 地 说 ，fgets 将 输入 流 中 由 调用 起 ， stdin 输入 的 东西 存 入 起 始 地 址 
为 tran_to_int 的 地 方 ， 并 且 最 多 读 取 sizeof(tran to_int) 个 ， 并 在 后 
方 sscanf 函数 中 将 刚才 读 入 的 数据 按照 %d 的 格式 存 入 stay_here ， 这 就 
是 C 语 言 一 直 在 强调 的 流 概念 的 意义 所 在 ， 这 两 个 语句 组 合 看 起 来 也 就 是 读 取 
一 个 数据 这 么 简单 ， 但 是 我 们 要 知道 一 个 问题 ， 一 个 关于 scanf 的 问题 


scanf("%d", &stay_here); 


这 个 语 甸 将 会 读 取 键盘 输入 ， 人 什么 意思 ?就 是 回 车 
会 留 在 输入 流 中 ， 被 下 一 个 输入 读 取 或 者 丢弃 。 这 就 有 可 能 会 影响 我 们 的 程 
序 ， 产 生意 料 之 外 的 结果 。 而 使 用 上 当 两 名 组 合 则 不 会 。 


函数 与 函数 指针 的 那些 事 


事实 上 ， 有 也 数 名 出 现在 峰值 符号 右边 就 代表 着 函数 的 地 址 


int function(int argc){ /*...*/ 


} 


int (*p_fun)(int) = function; 
int (*p_fuc)(int) = &function;// 和 上 一 句 意义 一 致 


上 述 代 码 即 声明 并 初始 化 了 芳 数 指针 ，p_fun 的 类 型 是 指向 一 个 返回 值 是 int 类 
型 ， 和 参数 是 int 类 型 的 部 数 的 指针 


p_fun(11); 
(*p_fun)(11); 
function(11); 


上 述 三 个 代码 的 意义 也 相同 ， 同 样 我 们 也 能 使 用 函数 指针 数组 这 个 概念 


int (*p_func_arr[])(int) = {funci, func2,}; 


其 中 func1, func2 都 是 返回 值 为 int 参数 为 int 的 函数 ， 接 着 我 们 能 像 数组 索 
引 一 样 使 用 这 个 敬 数 了 。 


Tips: 我 们 总 是 忽略 函数 声明 ， 这 并 不 是 什么 好 事 。 


e。 在 Ci 语言 中 ， 因 为 编译 器 并 不 会 对 有 没有 元 数 声明 过 分 深究 ， 其 至 还 会 放纵 ， 
当然 这 并 不 包含 内 联 函 数 (inline)， 因 为 它 本 身 就 只 在 本 文件 可 用 。 
e@ 比如 ， 当 我 们 在 某 个 地 方 调用 了 一 个 函数 ， 但 是 并 没有 声明 它 : 


CallwithoutDeclare(100); // 参 数 100 为 int 型 


那么 ，C 编 译 器 就 会 推测 ， 这 个 使 用 了 int 型 参数 的 函数 ， ee 

个 int 型 的 参数 列表 ， 一 旦 函数 定义 中 的 参数 列表 与 之 不 符合 ， 将 会 导致 参 
数 信息 传递 错误 (编译 器 永远 坚信 自己 是 对 的 1)， ie 言 是 强 类 型 语 
言 ， 一 旦 类 型 不 正确 ， 会 导致 许多 意 想不到 的 结果 (往往 是 Bug) 发 生 。 


e。 对 函数 指针 的 调用 同样 如 此 


C 语 言 中 malloc 的 那些 事 儿 


我 们 常常 见 到 这 种 写法 : 


int* pointer = (int*)malloc(sizeof(int)); 


这 有 什么 奇怪 的 吗 ? 看 下 面 这 个 例子 : 


int* pointer 2 = malloc(sizeof(int)); 


哪个 写法 是 正确 的 ? 两 个 都 正确 ， 这 是 为 什么 呢 ， 这 又 要 追求 到 远古 C 语 言 时 期 ， 
在 那个 时 候 ， void* 这 个 类 型 还 没有 出 现 的 时 候 ， malloc 返回 的 是 char* 

的 类 型 ， 于 是 那 时 的 程序 员 在 调用 这 个 函数 时 总 要 加 上 强制 类 型 转换 ， 才 能 正确 使 
用 这 个 函数 ， 但 是 在 标准 C 出 现 之 后 ， 这 个 问题 不 再 拥有 ， 由 于 任何 类 型 的 指针 都 
能 与 void* 互相 转换 ， Te 同 在 不 必要 的 地 方 使 用 强制 类 型 转 

换 ， 故 而 C 语 言 中 比较 正统 的 写法 是 第 二 种 。 


题 外 话 : C++ 中 的 指针 转换 需要 使 用 强制 类 型 转换 ， 而 不 能 像 第 二 种 例子 ， 但 是 
C++ 中 有 一 种 更 好 的 内 存 分 配方 法 ， 所 以 这 个 问题 也 不 再 是 问题 。 


Tips: 


e@ Ci 语言 的 三 个 函数 malloc ，calloc ，realloc ， 
活 信 用 的 国 修 务 扣 和 全 对 他 的 结果 进行 校 验 ， 最 好 的 办 法 还 是 对 他 们 进行 再 
包装 ， 可 以 选择 宏 包 装 ， 也 可 以 选择 函数 包装 。 


。 realloc 函数 是 最 为 人 诉 病 的 一 个 函数 ， 因 为 它 的 职能 过 于 宽广 ， 既 能 分 配 
空间 ， 也 能 释放 空间 ， 虽 然 看 起 来 是 一 个 好 函数 ， 但 是 有 可 能 在 不 经 意 间 会 帮 
我 们 做 一 些 意料 之 外 的 事情 ， 例 如 多 次 释放 空间 。 正 确 的 做 法 就 是 ， 应 该 使 用 
再 包装 阁 制 它 的 功能 ， 使 他 只 能 进行 扩展 或 者 缩小 堆 内 存 块 大 小 。 


指针 与 结构 体 
typedef struct tagt{ 
int Value， 


long vari_ store[1]; 
}vari_struct; 


乍 一 看 ， 似 乎 是 一 个 很 中 规 中 矩 的 结构 体 


vari_ struct vari 1; 


Vari_struct* vari p 1 = &vari 1; 
Vari_struct* vari p 2 = malloc(sizeof(vari struct))( 


似乎 都 是 这 么 用 的 ， 但 总 有 那么 一 些 人 想 出 了 一 些 奇 怪 的 用 法 


int what_spa want = 10; 
vari_struct* vari p_3 = malloc(sizeof(vari struct) + sizeof(long 
)*what_spa_want ) ; 


么 做 是 什么 意思 呢 ? 这 叫做 可 变 长 结构 体 ， 即 便 我 们 超出 了 结构 体 范 围 ， 只 要 在 
配 空间 内 ， 就 不 算 越界 。 what_spa_want 解释 为 你 需要 多 大 的 空间 ， 即 在 一 个 
吉 构 体 大 小 之 外 还 需要 多 少 的 空间 ， 空 间 用 来 存储 long 类 型 ， 由 于 分 配 的 内 存 是 
连续 的 ， 故 可 以 直接 使 用 数组 vari_store 直接 索引 。 而 且 由 于 C 语 言 中 ， 编 译 
器 并 不 对 数组 做 越界 检查 ， 故 对 于 一 个 有 N 个 数 的 数组 arr ， 表 达 

式 &arr[N] 是 被 标准 允许 的 行为 ， 但 是 要 记 住 arr[N] 却 是 非法 的 。 这 种 用 法 并 
非 是 娱乐 ， 而 是 成 为 了 标准 (C99) 的 一 部 分 ， 运 用 到 了 实际 中 


学 这 


ASS 


对 于 内 存 的 理解 


在 内 存 分 配 的 过 程 中 ， 我 们 使 用 malloc 进行 分 配 ， 用 free 进行 释放 ， 但 这 

是 我 们 理解 中 的 分 配 与 释放 吗 ? 在 调用 malloc 时 ， 该 函数 或 使 用 brk() 或 使 
用 mmap() 向 操作 系统 申请 一 片 内 存 ， 在 使 用 时 分 配给 需要 的 地 方 ， 与 之 对 应 的 

是 free ， 与 我 们 硬盘 删除 东西 一 样 ， 实 际 上 : 


int* Value = malloc(sizeof(int)*5); 


free(value); 
printf("%d\n", value[0]); 


代码 中 ， 为 什么 在 free 之后， 我 又 继续 使 用 这 个 内 存 呢 ? 因为 free 只 是 将 
该 内 存 标记 上 释放 的 标记 ， 示 意 分 配 内 存 的 函数 ， 我 可 以 使 用 ， 但 并 没有 破坏 当前 
内 存 中 的 内 容 ， 直 到 有 操作 对 它 进 行 写 入 。 这 便 引 申 出 几 个 问题 : 


e。 Bug 更 加 难以 发 现 ， 让 我 们 假设 ， 如 果 我 们 有 两 个 指针 pl ， EE 指向 同一 个 内 
存 ， 如 果 我 们 对 其 中 某 一 个 指针 使 用 了 free(p1); 操作 ， 却 忘记 了 还 有 另 
一 个 指针 指向 它 ， 那 这 就 会 导致 很 严重 的 安全 隐患 ， 而 且 这 个 隐患 十 2 
现 ， 原 因 在 于 这 个 Bug 并 不 会 在 当时 显露 出 来 ， 而 是 有 可 能 在 未 来 的 某 个 
刻 ， 不 经 意 的 让 你 的 程序 崩溃 。 

。 有 可 能 会 让 某 些 问题 更 加 简化 ， 例 如 释放 一 个 条 条 相连 的 链表 域 。 


某 些 大 哥 提 到 说 ， free 并 不 是 什么 都 不 做 ， 而 是 将 该 段 地 址 空间 的 前 面 


一 小 部 分 置 零 但 是 如 果 地 址 空间 很 长 的 话 ， 依 卓 有 误 用 的 风险 ， 和 希望 大 家 
还 是 警惕 
实际 NN A th niin 
能 考虑 ， 因 为 轩 零 操 作 是 一 个 消耗 性 能 的 行为 ， 具 体 可 以 自行 尝试 ， 所 谓 双 刃 
剑 就 在 于 此 。 


总 的 来 说 ， 还 是 那 甸 话 C 语 言 是 一 把 双 刃 剑 。 


0Xx06-C 语 言 预 处 理 器 


预 处 理 最 大 的 标志 便 是 大 写 ， 虽 然 这 不 是 标准 ， 但 请 你 在 使 用 的 时 候 大 写 ， 为 了 自 
己 ， 也 为 了 后 人 。 


预 处 理 器 在 一 般 看 来 ， 用 得 最 多 的 还 是 宏 ， 这 里 总 结 一 下 预 处 理 器 的 用 法 。 


#include <stdio.h> 
#define MACRO_OF_ MINE 
#ifdef MACRO_OF_ MINE 
#else 

#endif 


上 述 五 个 预 处 理 是 最 常 看 见 的 ， 第 一 个 代表 着 包含 一 个 头 文件 ， 可 以 理解 为 没有 它 
很 多 功能 都 无 法 使 用 ， 例 如 C 语 言 并 没有 把 输入 输入 纳入 标准 当中 ， 而 是 使 用 库 函 
数 来 提供 ， 所 以 只 有 包含 了 stdio.h 这 个 头 文件 ， 我 们 才能 使 用 那些 输入 输出 函 
数 。 #define 则 是 使 用 频率 第 二 高 的 预 处 理 机 制 ， 广 泛 用 在 常量 的 定义 ， 只 不 过 
它 和 const 声明 的 常量 有 所 区 别 : 


#define MAR_VA 100 
const int Con va = 100; 


/* 定 义 两 个 数组 */ 


for(int i = 0;i < 10;++1i) 
{ 
mar_arr[i] = MAR_VA; 
con_arr[i] = Con_va; 


e 区 别 1， 定 义 上 MAR_VA 可 以 用 于 数组 维 数 ， 而 Con_va 则 不 行 

e。 区 别 2， 在 使 用 时 ，MAR_VA 的 原理 是 在 文中 找到 所 有 使 用 本 身 的 地 方 ， 用 值 
替代 ， 也 就 是 说 Con_va 将 只 有 一 分 丨 迹 ， 而 MAR_VA 则 会 有 n 份 丨 迹 (hn 为 
使 用 的 次 数 ) 剩 下 三 个 则 是 在 保护 头 文件 中 使 用 颇 多 。 


几 个 比较 实用 的 用 于 调试 的 宏 , 由 C 语 言 自 带 


. LINE 和 FILE 用 于 显示 当前 行 号 和 当前 文件 名 
. DATE 和 TIME 用 于 显示 当前 的 日 期 和 时 间 
。 func (C99) 用 于 显示 当前 所 在 外 层 函 数 的 名 字 








上 述 所 说 的 五 种 宏 直 接 当 成 值 来 使 用 即 可 。 
©e STDC _ 
o 如 果 你 想 检 验 你 现在 使 用 的 编译 器 是 否 遵循 ISO 标 准 ， 用 它 ， 如 果 是 他 的 
值 为 1。 


printf("%d\n", __STDC_ ); 


输出 : 1 
o 如 果 你 想 进 一 步 确定 编译 器 使 用 的 标准 版 本 是 C99 还 是 C89 可 以 使 
用 STDC VERSION ，C99(199901) 


printf("%d\n", _ STDC VERSION ); 


输出 ; 199901 
可 能 很 多 人 对 这 些 宏 没 什么 感触 ， 实 际 上 一 般 的 确 是 用 不 到 ， 但 是 : 
当 你 在 写 一些 隐 上 的 东西 时 volatile int x = 10; 
你 试 试 把 这 个 代码 用 -std=c99 编译 一 下 ， 如 果 不 出 意外 应 该 是 出 错 的 


在 ISO 标准 里 ， volatile 是 用 volatile 来 实现 的 ， 这 个 
对 GCC ,Clang ,Visual C++ 而 言 都 是 如 此 除 此 之 外 还 有 人 许多， 有待 
你 们 自己 发 气 。 


对 于 #define 


1. 预 处 理 器 一 般 只 对 同一 行 定义 有 效 ， 但 如 果 加 上 反 针 枉 ， 也 能 一 直 读 取 下 去 


#define err(flag) \ 
if(flag) \ 
printf("Correctly") 


可 以 看 出 来 ， 并 没有 在 末尾 添加 ; ， 并 不 是 因为 宏 不 需要 ， 而 是 因为 ， 我 们 
总 是 将 宏 近似 当成 函数 在 使 用 ， 而 函数 调用 之 后 总 是 需要 以 ; 结尾， 为 了 不 
造成 混乱 ， 于 是 在 宏 定义 中 我 们 默认 不 添加 ; ， 而 在 代码 源 文件 中 使 用 ， 防 
止 定义 混乱 。 


， 预 处 理 同 样 能 够 带 来 一 些 便 利 


#define SWAP1(a，b) (a += b, b=a-b,a -= b) 
#define SWAP2(x, y) {x ^= y; y ^= xi x ^= y} 


引用 之 前 的 例子 ， 交 换 两 数 的 宏 写法 可 以 有 效 避 免 函 数 开销 ， 由 于 其 是 直接 在 
调用 处 展开 代码 块 ， 故 其 比拟 直接 吝 入 的 代码 。 但 ， 偶 尔 还 是 会 出 现 一 些 不 和 
谐 的 错误 ， 对 于 初学 者 来 说 : 


int vi = 10; 

int v2 = 20; 
SWAP1(v1, v2); 
SWAP2(v1i，v2);// 报 错 


对 于 上 述 代码 块 的 情况 ， 为 什么 SWAP2 报错 ? 对 于 一 般 的 初学 者 来 说 ， 经 常 
忽略 诸如 ， goto do...while 等 少见 关键 字 用 法 ， 故 很 少见 SWAP1 的 
写法 ， 大 多 集中 于 SWAP2 的 类 似 错误 ， 错 就 错 在 {} 代表 的 是 一 个 代码 块 ， 
不 需要 使 用 ;来 进行 结尾 ， 这 便 是 宏 最 容易 出 错 的 地 方 宏 只 是 简单 的 将 代码 
展开 ， 而 不 会 做 任何 处 理 对 于 此 ， 即 便 是 老手 也 常 有 失足 ， 有 一 种 应 用 于 单 片 
机 等 地 方 的 C 语 言 写法 可 以 在 此 借鉴 用 于 保护 代码 : 


#define SWAP3(x ,y) do{ \ 
X= y; y= x; x ^= y; \ 
}while(g) 


如 此 便 能 在 代码 中 安全 使 用 花 括 号 内 的 代码 了 ， 并 且 如 之 前 所 约定 的 那样 ， 让 
宏 的 使 用 看 起 来 像 函 数 。 


. 但 正 所 谓 ， 假 的 总 是 假 的 ， 即 使 宏 多 么 像 函 数 ， 它 依 昌 不 是 函数 ， 如 果 丨 的 把 
它 当 成 函数 ， 你 会 在 菜 些 时 候 错 的 摸 不 着 头脑 ,还 是 一 个 经 典 的 例子 ， 上 比较 大 
小 : 


#define CMP(x, y) (X >y?x:y) 


int x = 100, y = 200; 
int result = CMP(x, y++); 
printf("x = %d, y = %d, result = %d\n", x, y, result); 


执行 这 部 分 代码 ， 会 输出 什么 呢 ? 答案 是 ， 不 知道 ! 至 少 result 的 值 我 们 
无 法 确定 ， 我 们 将 代码 展开 得 到 


int result = (x > yt+ ? x : y++); 


看 起 来 似乎 就 是 y 递增 两 次 ， 最 后 result 肯定 是 200 。 卜 是 如 此 ?Ci 语言 
标准 对 于 一 个 确定 的 程序 语句 中 ， 一 个 对 象 只 能 被 修改 一 次 ， 超 过 一 次 那么 结 
果 是 未 定 的 ， 由 编译 器 决定 ， 除 了 三 目 操作 符 ?: 外 ， 还 有 && ，|| 或 
是 ， 之 中 ， 或 者 函数 参数 调用 ， switch 控 制 表达 式 ，for 里 的 控制 语句 由 此 
可 看 出 ， 宏 的 使 用 也 是 有 风险 的 ， 所 以 虽然 宏 强 大 ， 但 是 依 昌 不 能 滥用 。 


4， 对 于 宏 而 言 ， 前 面 说 过 ， 它 只 是 进行 简单 的 展开 ， 这 有 时 候 也 会 带 来 一 些 问题 : 
#define MULTI(x, y) (x * y) 


int x = 100, y = 200; 
int result = MULTI(x+y, y); 


看 出 来 问题 了 吧 ? 展开 之 后 会 变 成 : int result = xty * y; 完全 违背 了 
初 我 们 设计 时 的 想法 ， 一 个 比较 好 的 修改 方法 是 对 每 个 参数 加 上 括号 : 
#define MULTI(x，y) ((x) * (y)) 如 此 ， 展 开 以 后 


int result = ((xty) * (y)); 


能 在 很 大 程度 上 解决 一 部 分 问 旺 。 


5. 如 果 对 自己 的 宏 十 分 自信 ， 可 以 褒 套 宏 ， 即 一 个 表达 式 中 使 用 宏 作为 宏 的 参 
数 ， 但 是 宏 只 展开 这 一 级 的 宏 ， 对 于 多 级 宏 另 有 办 法 展开 


int result = MULTI(MULTI(x, y), y); 


展开 成 :SINCEYeSQLe [0((X) [v9 (v)) 


实际 上 ， 并 不 要 大 追求 用 宏 去 替换 函数 ， 例 如 这 个 交换 函数 ， 老 老实 实 写 函 
数 ， 有 时 候 比 宏 更 好 


对 宏 的 应 用 


1. 由 于 我 们 并 不 明白 ， 在 某 些 情况 下 宏 是 否 被 定义 了 ， 所 以 我 们 可 以 使 用 一 些 预 
处 理 保 护 机 制 来 防止 错误 发 生 


#ifndef MY_MACRO 
#define MY_ MACRO 10000 
#endif 


如 果 定 义 了 MY_MACRO 那 就 不 执行 下 面 的 语句 ， 如 果 没 定义 那 就 执行 。 


2. 在 宏 的 使 用 中 有 两 个 有 用 的 操作 符 ， 姑 且 叫 它 操作 符 # ，## 


o 对 于 # 我 们 可 以 认为 # 操作 符 的 作用 是 将 宏 参 数 转化 为 字符 串 。 


#define HCMP(x, y) printf(#x" is equal to" #y" ? %d\n" 
， (x) == (y)) 


int x = 100, y = 200; 
HCMP(x, y); 


展开 以 后 


printf("x is equal to y ? %d\n", (100) == (200)); 


昌 注 : 可 以 自行 添加 编译 器 选项 ， 来 查看 宏 展 开 之 后 的 代码 ， 有 具体 可 以 
查询 GCC 的 展开 选项 ， 这 里 不 再 详 述 。 特 别 是 在 多 层 宏 的 获 套 使 用 
情况 下 ， 但 是 我 不 太 推荐 ， 故 不 做 多 介绍 。 


@ 能 说 的 就 是 如 何 正确 的 处 理 一 些 瞻 套 使 用 ， 之 所 以 不 愿意 多 说 也 


不 愿意 多 用 ， 是 因为 C 预 处 理 器 就 是 一 个 奇 苑 
四 举 一 个 典型 的 例子 ， LINE 和 FILE 的 使 用 。 


/* 下 方 会 说 到 的 妆 预 处 理 指示 器 ， 这 里 先 用 ， 实 在 看 不 懂 ， 
可 以 自己 动手 尝试 */ 

#define WHERE AM I # LINE one 
E 





fputs(WHERE_AM_ I, stderr); 


这 样 能 工作 吗 ? 如 果 能 我 还 讲 干 嘛 。 
/* 常理 上 这 应 该 能 工作 ， 但 是 编译 器 非 说 这 错 那 错 的 */ 
/* 好 在 有 前 人 踏 过 了 坟 ， 为 我 们 留 下 了 解决 方案 */ 
#define DEPAKEGE(X) #X 
#define PAKEGE(X) DEPAKEGE(X) 
#define WHERE AM I PAKEGE( LINE ) " lines in 
FILE 


fputs(WHERE_AM_ I, stderr); 


不 要 问 我 为 什么 ， 因 为 我 也 不 知道 C 预 处 理 器 的 真正 工作 机 制 是 
什么 。 


第 一 次 看 见 这 种 解决 方案 是 在 Windows 核心 编程 中 ， 这 本 书 现 
在 还 能 给 我 许多 帮助 ， 虽 然 已 经 渐渐 淡出 了 书架 


总 结 起 来 ， 即 将 宏 参 数 放 于 # 操作 符 之 后 便 由 预 处 理 器 自动 转 
换 为 字符 串 常量 ， 转 义 也 由 预 处 理 器 自动 完成 ， 而 不 需要 我 们 自 
行 添加 转 义 符号 。 


.对 于 ## 

它 实现 的 是 将 本 操作 符 两 边 的 参数 合并 成 为 一 个 完整 的 标记 ， 但 需要 注意 的 
是 ， 由 于 预 处 理 器 只 负责 展开 ， 所 以 程序 员 必 须 自 己 保 证 这 种 标记 的 合法 性 ， 
这 里 涉及 到 一 些 写 法 问题 ， 都 列 出 来 


#define MERGE(x, y) have define ## x + y 
#define MERGE(x, y) have define ##x + y 


result = MERGE(1, 3); 


这 里 首先 说 明 ， 上 述 写 法 由 于 习惯 原因 ， 我 使 用 第 二 种 ， 但 是 无 论 哪 种 都 无 伤 
大 雅 ， 效 果 一 样 。 上 述 代码 展开 以 后 是 什么 呢 ? 


result = have define 1 + 3; 


在 我 看 来 ， 这 就 有 点 C++ 中 模版 的 思想 了 ， 虽 然 十 分 原始 ， 但 是 总 是 有 了 一 
个 方向 ， 人 和 凭借 这 种 方法 我 们 能 够 使 用 宏 ee 数 的 调用 ， 虽 然 我 
a i ed 但 需要 提前 知晓 有 几 个 函数 ， 并 且 如 果 要 实 
现 动 态 增长 还 需要 消耗 内 存 分 配 ， 但 宏 则 不 同 。 


inline int func 0O(int arg 1, int arg_ 2) { return arg_ 1 
tA) 

inline int func 1(int arg 1, int arg 2) { return arg_ 1 
- arg 2; } 

inline int func 2(int arg 1, int arg 2) { return arg_ 1 
al 

inline int func 3(int arg 1, int arg 2) { return arg_ 1 
/全 argEE2 让 

#define CALL(x, argi, arg2) func_##x(argi, arg2) 


printf("func %d return %dxn" ,9 ,CALL(0, 2, 10)); 
printf("func %d return %d\n",1 ,CALL(1, 2, 10)); 
printf("func %d return %d\n",2 ,CALL(2, 2, 10)); 
printf("func %d return %d\n",3 ,CALL(3, 2, 10)); 


十 分 简便 的 一 种 用 法 ， 在 我 们 增加 减少 函数 时 我 们 不 必 考 虑 如 何 找到 这 些 函 数 
只 需要 记 下 每 个 函数 对 应 的 编号 即 可 ， 但 还 是 那 句 话 ， 不 可 洲 用 。 


#define CAT(temp, i) (cat##i) 


友人 
for(int i = 0;i < 5;++1i) 
{ 
int CAT(x,i) = 1i*i,; 
printf("x%d = %d \n",i,CAT(x,1i)); 
} 


.对 于 宏 ， 在 使 用 时 一 定 要 注意 ， 宏 只 能 展开 当前 层 的 宏 ， 如 果 你 吝 套 使 用 宏 ， 


即将 宏 当 作 宏 的 和 参数， 那么 将 导致 宏 无 法 完全 展开 ， 即 作为 参数 的 宏 只 能 传递 
名 字 给 外 部 宏 


#define WHERE(value name, line) #value name #]l]line 


puts(WHERE(x, _ LINE )); //x = 11 


输出 : 11 LINE 


5. 对 于 其 他 的 预 编译 器 指令 ， 如 : #pragma，#1ine，#error 和 各 类 条 件 编译 并 
不 在 此 涉及 ， 因 为 使 用 上 并 未 有 陷阱 及 难点 。 
6.C 和 C++ 混合 编程 的 情况 
o 经 常 能 在 源 代码 中 看 见 extern "C" 这 样 的 身影 ， 这 是 做 什么 的 ? 


o 这 是 为 了 混合 编程 而 设计 的 ， 常 出 现在 C++ 的 源 代码 中 ， 目 的 是 为 了 让 
C++ 能 够 成 功 的 调用 C 的 标准 或 非 标准 函数 。 


这 


#if defined(_ cplusplus) || defined(_cplusplus) 
extern "CC { 
#endif 


/** 主 体 代码 **/ 


#if defined(_ cplusplus) || defined(_cplusplus) 
} 
#endif 


这 样 就 能 在 C++ 中 调用 C 的 代码 了 。 


o 在 C 中 调用 C++ 的 函数 需要 注意 ， 不 能 使 用 重 载 功能 ， 否 则 会 失败 ， 原 
因 详 见 C++ 对 于 重 载 函 数 的 实现 。 也 可 以 称 为 mangle 


7. 还 有 一 种 可 以 被 称 之 为 宏 的 小 应 用 的 技巧 


o 对 于 一 个 宏 而 言 ， 是 否 有 考虑 过 它 的 返回 值 是 什么 
o 或 者 如 何 令 其 有 一 个 函数 那样 的 功能 
o 其 实 很 简单 


#define TEST_RET(val, continues) ({continues = 19;val = 
11;}) 


_attribute ((unused)) int oldval = 10; 
_attribute _((unused)) int newval = 18; 
fprintf (stderr, "%d\n", TEST_RET(oldval, newval)); 


o 可 以 尝试 一 下 这 个 方法 ， 其 中 原理 自然 就 知道 了 。 具 体操 作 就 是 
用 ({}) 包 衰 你 想 要 的 东西 。 


对 宏 的 教 苦 
1. 为 什么 有 这 么 一 说 ， 因 为 使 用 宏 引 的 是 处 处 危险 ， 而 且 代 码 难 以 调试 
2. 经 常会 遇 到 这 种 情况 ， 你 将 代码 写成 函数 的 时 候 没有 任何 问题 ， 但 是 改 成 宏 却 
出 现 了 问题 

o 当然 更 可 能 的 是 你 一 开始 就 写 宏 ， 却 发 现 总 是 得 不 到 到 预期 的 结果 ! 

3. 不 知道 诸位 对 反 转 链表 这 种 知识 点 掌握 的 如 何 ? 
ji， 如 果 很 有 信心 不 妨 挑战 一 下 下 面 的 东西 ， 看 看 是 否 能 在 我 说 出 原由 之 前 意 

识 到 问题 


ij， 如 果 不 太 懂 ， 那 就 跟着 看 下 去 ， 一 定 有 收获 ! 
举 个 例子 最 好 说 明 问题 


e@ 假设 要 写 一 个 双向 链表 的 插入 操作 
o 我 想 要 提供 的 是 两 个 功能 ， 后 方 插入 ， 前 方 插入 
o 我 的 设计 原型 是 Linux 内 核 的 链表 原型 。 


所 谓 的 Linux 内 核 的 链表 原型 就 是 在 内 核 编程 中 使 用 的 链表 数据 结构 ， 我 以 
它 为 例子 ， 自 己 写 了 一 个 插入 操作 





#define _list add inner(_add pos, _add node) \ 
do {\ 
(_add node)->next = (_add pos)->next;\ 
(_add node)->prev = (_add pos);\ 
(_add pos)->next->prev = (_add node);\ 
(_add pos)->next = (_add_node);\ 
} while(0) 


static inline void list add after(struct list * add pos, struct 
list * add node) { 
_list add inner(add_ pos, add_node); 


static inline void list add before(struct list * add pos, struct 
list * add node) { 
_list add inner(add pos->prev, add_node); 


@ 很 好 ， 可 以 试 着 测试 一 下 最 后 这 两 个 函 
数 list_add after ， 1list_add_before 看 看 是 否 达 到 预期 目的 ? 
有 时 候 代码 真 的 就 是 要 测试 才 行 


。 不 喝 哮 ， 这 样 是 不 行 的 | 
o 为 何 ? 问题 就 出 在 list_add_before 这 个 函数 的 add_pos->prev 参数 
上 ， 原 因 就 是 宏 只 是 做 一 个 简单 的 替换 ， 而 不 是 值 代入 
o 这 里 需要 自己 体会 一 下 。 修 正 一 下 代码 


替换 和 值 代 入 可 是 大 不 相同 的 


#define _list add inner(_add pos, _add node) \ 
do {\ 
struct list * tmp = _add_ pos) 
(_add_node)->next = tmp->next;\ 
(_add node)->prev = tmp;\ 





tmp->next->prev = (_add_node);\ 
tmp->next = (_add node); 
} while(0) 


@ 不 知 是 否 看 出 了 什么 门道 ， 这 就 是 关键 所 在 ， 构 造 一 个 值 ， 而 不 是 简单 的 替 
换 。 可 以 自己 动手 画 一 画 流 程 图 。 


0x07-C 语 言 效率 (上 ) 


大 概 所 有 学 习 C 语 言 的 初学 者 ， 都 被 前 莫 说 过 ，C 语 言 是 世界 上 接近 最 速 的 编程 语 

言 ， 当 然 这 并 不 是 吹牛 ， 也 并 不 是 贬低 其 他 语言 ， 诚 然 非 C 语 言 能 写 出 高 速度 的 代 

码 ， 但 是 C 语 言 更 容易 写 出 高 速 的 程序 (高 速 不 代表 高 效 )， 然 而 再 好 的 工具 ， 在 外 行 
人 手中 也 只 能 是 点 淡 没 落 。 


对 于 现代 编译 器 ， 现 代 CPU 而 言 ， 我 们 要 尽量 迎合 CPU 的 设计 (比如 架构 和 处 理 指 
令 的 方式 等 )， 虽 然 编译 器 是 为 程序 员 服务 ， 并 且 在 尽 它 最 大 的 能 力 来 优化 程序 员 写 
出 的 代码 ， 但 是 毕 竞 它 还 没有 脱离 电子 的 范畴 ， 如 果 我 们 的 代码 不 能 让 编译 器 理 

解 ， 编 译 器 无 法 帮 我 们 优化 代码 ， 那 么 我 们 就 无 法 写 出 一 个 高 速 的 程序 。 


对 于 此 ， 我 们 可 以 暂且 忽略 CPU 的 设计 ， 因 为 我 们 在 层面 上 只 能 考虑 如 何 迎 合 编译 
器 的 优化 规则 ， 而 CPU 则 是 语言 以 及 编译 器 的 事情 了 。 


提高 程序 的 速度 ， 就 C 语 言 而 言 可 以 有 这 几 种 方法 : 


WA ， 正 所 谓 一 个 程序 最 大 的 性 能 提升 就 是 它 第 一 次 运 
行 的 时 候 

e@ 要 避免 连续 的 函数 调用 。 

@ 消除 不 必要 的 存储 器 使 用 (并 非 推 荐 使 用 register) 

@ 使 用 循环 展开 技巧 ， 一 般 编 译 器 的 优化 选项 能 自动 帮 你 修改 代码 成 循环 展开 

e。 对 于 一 个 操作 的 核心 耗 时 部 分 ， 通 过 重新 组 合 技术 来 提高 速度 

@ 多 采用 几 种 风格 的 写法 ， 而 不 是 直观 的 认为 ， 因 为 计算 机 的 想法 和 你 是 不 一 样 

e : 随 着 编译 器 的 版 本 更 新 ， 即 使 不 开启 优化 选项 ， 自 带 的 编译 器 优化 依 昌 能 
i 写 的 代码 提供 一 部 分 优化 ， 这 便 是 不 使 用 老 版 本 编译 器 的 原因 ， 虽 
然 作 为 一 个 程序 员 不 应 该 太 依赖 于 编译 器 ， 但 是 我 认为 ， 时 代 在 进步 ， 信 息 量 
正在 无 限 的 膨胀 ， 但 是 人 类 的 大 脑 以 及 精力 在 一 个 大 时 代 内 是 有 限 的 ， 换 名 话 
说 对 于 普通 人 而 言 我 们 的 记忆 是 有 限 的 ， 我 们 不 应 该 把 精力 放 在 前 人 已 经 做 完 
的 事情 上 ， 而 是 要 站 在 巨人 的 肩膀 上 向 更 远 处 上 晓 望 ， 如 此 我 们 应 该 充分 利用 工 
具 来 帮助 我 们 实现 一 些 既 有 的 功能 ， 而 程序 员 应 该 更 专注 于 发 现 新 的 思路 ， 以 
及 想法 ， 在 图 灵 测 试 尚未 有 人 打破 之 前 ， 程 序 员 依赖 编译 器 并 不 是 一 件 错误 的 
事情 。 
对 于 当下 的 编译 器 ， 以 GCC (GCC 不 仅仅 是 一 个 编译 器 ， 但 这 里 将 它 当 成 编译 
器 的 代名词 ) 为 例 ， -02 是 一 个 为 大 众 所 接 受 的 优化 等 级 ， 对 于 其 他 编译 器 ， 
一 般 程序 员 可 以 选择 使 用 由 Google 和 Apple 联 合 开 发 的 编译 器 clang 也 是 一 


个 很 好 的 选择 ， 在 -02 的 优化 等 级 下 ， GCC 一 般 情 况 下 能 够 自动 执行 循环 
展开 优化 ， 


开始 


人 


/*struct.h*/ 
#include <stdio.h> 
typedef struct met 
int value; 
struct me* next; 
}data t; 


typedef structf{ 
int index; 
data_t* storage; 
}block; 


为 了 测试 方便 我 们 首先 定义 了 两 个 结构 体 ， 分 别 是 : 


block 代表 一 个 块 ， 每 个 块 都 有 一 个 序号 ( int )， 一 个 数据 域 data_t 
data_t 代表 一 个 数据 域 ， 原 型 是 一 个 链表 ， 每 个 data_t 对 象 中 包含 一 个 
数据 和 一 个 指针 。 


/*main.c*/ 

#include "struct.h" 

#define ARR_SIZE 10 

static inline int get_ len(const data t* data) 


{ 


int len = 0; 


if(!'data) 


fprintf(stderr, "The data in %p is NULL\n",data); 


else 
while( !'data->next) 


{ 
++len; 
data = data->next; 
} 
return len; 
} 
static inline void mix_cal(const block* process, int result 
[]) 
{ 
for(int i = 0;i < get_ len(process->storage);++i) 
{ 
*result += (process->storage)[i]; 
} 
} 


此 时 我 们 得 到 了 两 个 测试 函数 ， get_len 和 mix_cal 分 别 用 来 得 
到 data tt 长度， 以 及 计算 数据 域 的 总 和 。 


/*main.c*/ 
int main(void) 
{ 
block* block_in all[ARR_ SIZE] = { NULL }; 
int result_in all[ARR SIZE] = {0 }; 
7 
* 假设 生成 了 许多 的 `block ` 类 型 对 象 
* 将 许多 的 `block ` 放 置 在 一 个 数组 中 ， 每 个 元 素 类 型 为 "blockx 
* 每 个 block 对 象 中 都 包含 非 空 的 data 七 类 型 的 数据 域 
BA 
for(int i = 0;i < ARR SIZE;++1i) 
{ 
mix_cal(block_ in all[i], result_in_all+i); 
} 
for(int i = 0;i < ARR SIZE;++i) 
{ 
printf("The %dth block have the total %d data\n", 
block_in all[i]->index, result_ in_alll[i 


return 0， 


耐心 读 完 上 述 的 代码 ， 它 是 用 来 求 和 的 ， 求 一 个 域 中 的 所 有 元 素 的 和 。 和 仔细 分 
析 一 下 ， 很 容 多 就 能 看 见 一 些 缺 点 ， 最 大 的 英 过 于 在 mix_cal 函数 中 对 

于 get_len 函数 的 调用 ， 在 此 处 看 来 十 分 明显 ， 但 是 我 们 在 编写 程序 的 时 候 
是 否 能 够 注意 到 这 个 问题 呢 ? 

对 于 一 些 不 必要 的 函数 调用 我 们 要 做 的 便 是 将 他 们 提取 出 来 ， 使 用 临时 变量 是 
一 个 很 好 的 办 法 ， 因 为 在 编译 器 的 帮助 下 临时 变量 在 允许 的 情况 下 能 够 充分 的 
利用 CPU 的 寄存 器 。 之 所 以 是 允许 的 情况 下 ， 是 因为 寄存 器 的 数量 并 不 多 ， 而 
编译 器 在 寄存 器 的 使 用 上 需要 考虑 许多 的 复杂 因素 ， 故 并 不 是 每 次 使 用 临时 变 
量 都 能 加 入 寄存 器 。 但 这 并 不 妨碍 我 们 提升 程序 的 性 能 。 


在 此 处 ， 我 们 应 该 将 for 循环 中 的 判断 语句 里 的 get_len 函数 提取 出 来 ， 
在 外 部 使 用 一 个 临时 变量 接收 结果 ， 而 不 是 在 循环 中 一 直 调 用 该 函数 。 


int len = get_len(process->storage); 


依 日 是 上 方 的 代码 ， 我 们 来 讲述 一 下 ， 循 环 展开 。 


对 于 mix_cal 函数 ， 我 们 或 者 说 编译 器 可 以 如 何 提升 它 的 速度 呢 ? 我 们 说 过 
一 点 的 小 改变 都 可 能 对 一 个 程序 的 最 终 代 码 产 生 极 大 的 影响 ， 对 此 最 常用 的 便 
是 尝试 ， 前 人 之 路 早已 铺 好 ， 不 需要 重复 造 轮子 了 。 


循环 展开 : 


int reality = len - 1, i; 
for(i = 0;i < reality;i+=2) 


{ 

*result = *result + (process->storage)[i] 

+ (process->storage)[i+1]; 

} 
for(;i < len;++i) 
{ 

*result += (process->storage)[i]; 
} 


这 就 是 循环 展开 中 的 2 次 循环 展开 ， 同 样 还 有 n 次 循环 展开 。 


同样 ， 在 刚才 提 到 过 寄存 器 的 使 用 以 及 减少 不 必要 的 开销 ， 在 此 程序 中 对 
于 (process->storage)[i] 这 样 的 存储 器 位 置 解 引 用 太 过 浪费 ， 我 们 总 是 将 
其 优化 成 本 低 临 时 变量 的 使 用 


data* local data = process->storage; 


这 将 为 程序 带 来 十 分 可 观 的 节约 ， 虽 然 这 些 工 作 在 编译 器 的 优化 中 都 能 包括 ， 
但 是 一 旦 我 们 以 被 编译 器 所 理解 (虽然 编译 器 的 升级 最 大 的 目的 就 是 提 
升 优化 效果 )， 那 么 我 们 很 可 能 得 到 一 个 性 能 不 够 可 观 的 程序 。 所 以 当 我 们 并 不 
是 特别 ， es ws ， 可 以 将 这 些 工作 当成 我 们 的 本 分 来 做 ， 而 不 是 交 给 编译 器 
来 做 。 


以 及 对 于 外 部 存储 位 置 result 我 们 在 此 处 也 是 存在 着 浪费 ， 同 样 我 们 应 该 
使 用 一 个 临时 变量 来 存储 总 和 ， 而 不 是 每 次 得 到 结果 便 对 它 进 行 解 引用 操作 。 


int local result = 0; 


Ve 

Jocal result = Jocal result + local data[i] + local data[i+ 
1]; 

/A 


*result = local result; 


在 上 方 我 们 可 以 看 见 循环 展开 被 称 作 2 次 循环 展开 ， 那 么 自然 可 以 推断 有 n 次 
循环 展开 ， 自 然 是 有 的 ， 对 于 一 个 n 次 循环 展开 的 式 子 我 们 有 一 个 简便 的 上 办 
确定 公式 即 : 


reality = len - n+ 工 ; 


至 于 展开 几 次 最 好 ， 依 然 是 视 环境 而 定 。 故 最 终 的 版 本 应 该 为 : 


static inline void mix_cal(const block* process, int result 
[]) 
{ 


int local result = 0; 

int len = get_ len(process->storage); 
int reality = Jen - 1, i; 

data* local data = process->storage; 


for(i = 0;i < reality;i+=2) 

local result += local data[i] + local data[i+1]; 
for(;i < len;++i) 

local result += local datal[i]; 


*result = local result; 


解释 : 循环 展开 将 元 素 相 加 分 为 两 个 部 分 ， 第 一 部 分 每 次 加 两 个 元 素 ， 由 于 如 
此 做 会 剩余 元 素 没有 加 ， 故 在 第 二 部 分 将 剩 下 的 元 素 都 加 起 来 。 


. 还 有 一 种 叫做 重新 组 合 的 技巧 ， 即 为 让 一 个 表达 式 中 的 运算 数 自由 组 合 ， 组 
合 出 最 快速 的 一 种 ， 但 是 这 种 方法 未 曾 试验 过 。 故 不 提 及 。 

. 对 于 条 件 分 支 预测 错误 造成 的 时 间 损 耗 ， 称 之 为 惩罚 ， 最 通俗 的 说 法 ， 就 是 
当 你 编写 的 代码 中 含有 条 件 分 支 的 时 候 ， 处 理 器 会 选择 去 预 判 某 一 个 分 支 是 此 
次 正确 的 支 路 ， 这 样 可 以 避免 修改 任何 实际 的 寄存 器 和 存储 器 ， 一 直到 确定 了 
实际 结果 ， 要 是 不 对 ， 那 就 惨 了 ， 这 段 时 间 做 的 事情 都 白费 了 。 但 是 也 不 必 过 
分 的 关心 这 种 条 件 分 支 的 预测 ， 这 也 是 我 放 在 最 后 说 的 意义 所 在 。 


这 里 有 两 种 较为 客观 的 方法 ， 一 种 被 称 为 命令 式 ， 一 种 被 称 为 功能 式 
全 


章 令 式 : 


) 


for(int i = 0;i < Nn;++1i) 


{ 
if(a[i] > b[I]){ 
int temp = a[i]; 
a[i] = b[i]; 
b[i] = temp; 
} 
} 
功能 式 


int min, max; 
for(int i = 0;i < Nn;++1i) 


{ 
min = a[i] < b[i] ? a[i] : b[i]; 
max = a[i] < b[i] ? b[i] : a[i]， 
a[i] = min; 
b[i] = max; 

} 


很 清晰 的 一 个 例子 ， 明 显 看 出 来 ， we 同情 况 所 作 的 程序 步 数 明显 不 
同 ， 而 后 者 无 论 什 么 情况 都 是 相同 的 程序 步 。 


ms 式 的 好 处 前 者 对 于 可 预测 数据 来 说 ， 是 一 个 很 好 的 模型 ， 后 者 则 是 中 良 
， 什么 是 可 预测 不 可 预测 ， 比 如 一 个 数 是 负数 还 是 正 数 这 就 是 不 可 预测 
ws 辐 。 


5. .多 路 并 行 的 技巧 也 是 一 个 很 重要 的 思路 ， 可 能 在 很 多 人 眼中 看 来 ， 两 条 语句 
依次 写 出 和 合并 的 效果 一 定 是 一 样 。 但 是 多 路 并 行 有 一 个 缺点 就 是 对 寄存 器 的 
数量 有 所 要 求 ， 当 寄存 器 不 够 时 ( 称 为 溢出 )， 性 能 不 升 反 降 。 同 样 是 对 于 循环 
展开 ， 此 次 使 用 四 次 循环 展开 加 二 路 并 行 : 


for(i = 0;i < reality;i+=4){ 

local result 1 += local data[i] + local data[i+1]; 

local result 2 += local data[i+2] + local data[i+3]; 
}// 也 可 以 分 成 四 路 并 行 ， 每 一 路 存 一 个 。 这 种 做 法 充分 利用 了 CPU 流 水 线 的 性 能 
for(;i < len;++i) 

local result 1 += local datal[i]; 


*result = local result 1 + local result 2; 


结 


Tips: 


上 文中 写 到 的 函数 大 都 带 有 static inline 关键 字 ， 这 是 何 意 ? 首先 我 们 要 确定 
一 件 事情 ， 对 于 非 工程 的 单 文件 而 言 ， static 函数 并 没有 什么 意义 (意义 指 的 是 
对 于 可 见 性 而 言 ， 并 非 说 它 一 无 是 处 )， 许 多 人 对 于 static 函数 感到 茫然 的 原因 
在 于 :我 明明 将 一 个 函数 声明 定义 成 static 类 型 了 ， 但 是 我 还 是 可 以 在 别 的 文件 
中 访问 到 啊 ! 


其 实 这 是 因为 你 根本 就 没有 理解 C 语 言 工程 这 个 意思 ， 大 部 分 人 是 这 么 测试 的 : 


1. 首先 在 一 个 文件 夹 里 创建 两 个 文件 test static.c 和 static.h : 


/*static.h*/ 

#ifndef STATIC_H 
#define STATIC_H 

static void test(void); 


static void test(void ) ; 
{ 
printf("Hello World!\n"); 


} 
#endif 


2. 


/testastatLleser 
#include <stdio.h> 
#include "static.h" 


void test(void); 

int main(void) 

{ 
test(); // 编 译 通过 ， 可 以 运行 。 
return 0， 


后 编译 运行 ， 发 现 可 以 通过 啊 1 | 标准 怎么 说 在 其 他 文件 中 不 可 见 ? 而 
static.h 去 掉 #include 之 后 发 现 报错 test undefined ， 瞬 问 初学 者 
就 凌乱 了 。 


.好 吧 ， 实 际 上 是 前 人 莫 们 以 及 教材 的 错 ， 因 为 从 始 至 终 ， 所 有 外 界 现 象 都 告诉 我 


们 C 程 序 是 独立 的 一 个 一 个 文件 组 成 的 ， 但 是 并 没有 告诉 我 们 要 先 将 他 们 弄 成 
一 个 工程 |! 此 处 如 果 是 使 用 Visual Studle ous 言 的 可 能 会 对 工程 这 个 概念 
理解 的 稍微 好 一 些 ， 虽 然 不 推荐 使 用 VS 学 习 C 语 言 。 


.你 想 要 实现 static 函数 仅 在 本 文件 可 见 的 效果 ， 请 你 先 补习 一 下 工程 这 个 概 


念 ， 对 于 任何 可 见 或 者 不 可 见 的 概念 而 言 都 是 建立 在 一 个 工程 内 而 言 ， 而 不 是 
像 上 方 的 代码 ， 使 用 #include 来 表示 ， 你 都 #include 了 ， 那 还 有 什么 

见 不 可 见 的 当然 都 可 见 了 。 所 以 一 个 static 函数 可 见于 不 可 
工程 里 的 所 有 C 语 言 源 文件 而 言 的 。 所 以 你 将 常 看 见 前 华 们 这 么 回答 你 的 提问 : 


/*static.h*/ 

#ifndef STATIC_H 
#define STATIC_H 
static void test(void); 


static void test(void); 


{ 
printf("Hello World!\n"); 


} 
#endif 


testEsatc CC:7X 
#include <stdio.h> 


void test(void); 
int main(void) 


{ 
test(); // 报 错 ， 因 为 test 是 static 函 数 。 
return 0， 


发 现 了 吗 ? 在 上 方 代 码 中 ， 少 了 一 行 #include "static.h" 但 是 这 个 代码 依 
旧 可 行 ， 因 为 这 两 个 文件 是 建立 在 同 AAA 
意 新 建 两 个 源 文件 这 么 简单 ， 你 可 以 使 用 各 个 IDE 的 工程 功能 来 进行 测试 。 


回 到 正题 ， 在 这 里 稍微 提 一 下 static 对 闷 数 的 菜 些 作用 ， 它 可 以 让 函数 放 在 一 个 静 
态 的 空间 中 ， 而 不 是 栈 里 ， 这 是 的 它 的 调用 更 加 快速 ， 经 常 与 inline 关 键 字 一 起 使 
用 ， 为 的 就 是 让 函数 更 加 快 。 但 是 有 利 有 头 ， 可 以 自己 权衡 一 下 。 


参考 :深入 理解 计算 机 系统 --Randal E.Bryant / David O'Hallaro 


0x08-C 语 言 效率 (下 ) 


注 : 存储 器 山 就 是 对 于 不 同步 长 不 同 大 小 文件 的 读 取 速率 的 三 维 
坐标 图 ， 形 似 一 座 山 ， z 轴 为 速 奏 ，x 轴 为 步 长 ， y 轴 为 文件 
大 小 〈 字 节 ) ， 某 些 主流 的 测评 软件 便 是 这 个 原理 (将 存储 器 山 的 
图 像 进行 一 下 简单 的 变换 ， 就 能 得 到 哪些 软件 呈现 的 效果 图 像 )。 


上 文 提 到 过 ， 任 何 一 点 小 改动 ， 都 有 可 能 让 程序 的 性 能 发 生 很 大 的 变动 ， 这 是 为 什 
么 ?了 


当时 我 们 并 未 深究 ， es 
致 ， 也 在 过 往 的 经 验 中 认为 计算 机 一 定 是 在 任何 方面 超越 人 类 的 存在 ， 但 是 

上 ， 计 算 机 除了 在 重复 计算 方面 比 人 类 的 速度 要 快速 以 外 ， 0 
类 的 大 脑 ， 即 便 是 我 们 最 稀 足 平常 的 视觉 识别 (看 东西 识别 物体 )， 在 计算 机 看 来 都 
是 一 门 极其 高 深 的 领域 ， 所 以 我 们 现在 的 时 代 的 计算 机 还 处 于 起 步 状态 ， 在 这 种 时 
代 里 ， 程 序 员 的 作用 是 无 可 替代 的 ， 同 样 程序 员 的 一 举 一 动 关乎 计算 机 的 命运 。 


可 能 在 很 多 的 方面 ， 都 已 经 接触 了 一 台 计 算 机 的 主要 组 成 构造 ， 和 程序 员 最 息 息 人 
关 的 便 是 CPU， 主 存 以 及 硬盘 了 ， 可 能 到 现在 为 止 很 多 程序 员 仍然 认为 编程 序 和 这 
些 存储 器 有 什么 关系 ? 然而 一 个 程序 员 ， 特 别 是 编写 C 语 言 程 序 的 程序 员 ， 
影响 自 于 此 ， 在 计算 机 的 存储 器 结构 中 ， 分 为 四 种 层次 


CPU 寄存 器 高 速 缓存 器 主 存 硬盘 


但 是 有 没有 想 过 ， 为 什么 计算 机 存储 器 系统 要 分 成 这 四 层 结构 呢 ? 我 们 知道 ， 上 述 
四 种 存储 器 的 读 写 速 度 依 次 降低 ， 我 们 为 什么 不 选择 一 种 速度 中 请 的 ， 价 格 也 中 请 
的 材料 ， 制 造 所 有 层次 的 存储 器 呢 ? 


e。 有 人 给 出 的 解释 是 ， 一 个 编写 良好 的 程序 总 是 倾向 于 访问 层次 更 高 的 存储 器 
而 对 于 现在 的 技术 ， 价 格 高 兄 而 无 法 大 量 制造 的 高 速 存 储 器 来 说 ， 我 们 可 以 选 
择 按 层次 分 配 构造 ， 让 我 们 以 最 低 的 成 本 的 存储 器 达到 使 用 最 高 的 速度 存储 器 
的 效果 。 

。 就 像 是 在 自己 的 计算 机 上 ， 当 我 们 打开 一 个 很 策 重 的 应 用 程序 后 ， 会 发 现 ， 下 
一 次 再 打开 的 时 候 可 能 会 更 快 ， 就 像 以 前 历史 遗留 的 一 个 问题 Visual Studio 
2008 在 Windows XP 上 ， oo 序 之 后 第 
二 次 打开 却 是 很 流 息 。 在 参考 书 中 ， 提 到 过 两 个 评价 程序 速度 的 关键 点 : 时 间 
局 部 性 和 空间 局 部 性 。 

o 时 间 局 部 性 : 在 访问 过 某 块 存储 器 之 后 的 不 久 的 将 来 ， 很 可 能 会 再 次 访问 


它 

o 空间 局 部 性 : 在 访问 过 茶 块 存储 器 之 后 的 不 就 的 将 来 ， 很 可 能 访问 其 邻近 
的 存储 器 位 置 。 

o 良好 的 局 部 性 改进 一 般 能 很 好 的 提升 程序 的 性 能 。 

e。 所 谓 局 部 性 就 是 当 我 们 使 用 过 某 些 资源 后 ， 这 些 资源 总 是 以 一 种 形式 存储 在 更 
高 级 更 方便 的 存储 器 当中 ， 让 最 近 一 次 的 存 取 请 求 能 够 更 加 有 效率 的 进行 。 
es a Ie ，CPU 是 一 个 人 人， 想象 一 下 这 

个 家 中 的 所 有 物品 都 是 并 然 有 序 的 ， 这 个 人 想 要 工作 必然 会 需要 工作 物 
品 ， 所 以 他 需要 从 某 些 地 方 拿 来 ， 用 完 以 后 再 放 回 去 ， 这 些 地 方 就 是 存储 
器 ， 但 是 过 了 一 段 时 间 发 现 这 么 做 太 浪 费时 间 ， 有 时 候 某 些 东 西 太 远 了 ， 
所 以 ， 人 想 把 它 把 它 放 在 离 自己 更 进 的 地 方 ， 这 样 自己 的 效率 就 高 很 多 ， 
如 果 这 个 东西 一 段 时 间 内 不 再 用 ， 则 把 它 放 回 原 处 ， 留 出 位 置 给 更 需要 的 
CA 
储 器 的 分 层 结构 的 意义 。 


se 言 ， 我 们 总 能 在 离 自己 最 近 的 地 方 找到 
我 们 所 需要 的 数据 ， 回 到 计算 机 : Re se 层 结构 
的 ， 即 每 一 层 对 应 着 不 同 的 读 写 速 度 等 级 (CPU 寄 存 器 > 缓存 > 主 存 


人 的， 人们， 每 次 找到 一 个 
所 需要 数据 ， 不 出 意外 ， 总 是 将 其 移动 到 上 一 层次 的 存储 器 中 存储 ， 以 便 
下 次 更 高 速 的 访问 ， 我 们 称 这 种 行为 叫做 命中 。 越 好 的 程序 ， 越 能 将 当 
时 所 需 的 数据 放 在 越 靠近 左边 的 地 方 。 这 便 是 局 部 性 的 意义 所 在 。 

o 当然 ， 存 储 器 如 此 分 层 也 是 出 于 无 奈 ， 在 处 理 器 的 速度 和 存储 器 的 速度 
在 差距 的 情况 下 只 有 如 此 做 才能 让 处 理 器 更 加 充分 的 利用 ， ewe 
存储 器 读 写 而 空间 ， 也 许 某 一 天 ， 当 内 存 的 位 价 和 普通 硬盘 不 相 上 下 或 者 

差距 不 多 的 时 候 ， 也 许 内 存 就 是 硬 和 瘟 了 。 而 当今 也 有 人 使 用 某 些 特殊 的 软 
件 在 实现 这 个 功能 ， 人 和 任 着 自己 计算 机 上 大 容量 的 内 存 ， 分 割 出 来 当 作 硬盘 
使 用 ， 存 取 速 度 让 硬盘 望尘莫及 。 


局 部 性 


前 方 提 到 了 局 部 性 ， 局 部 性 体现 在 了 ， 当 步 长 越 大 ， 空 间 局 部 性 越 低 ， 大 多 数 情 况 
下 会 造成 性 能 降低 ， 比 如 最 常见 的 多 维 数组 循环 (我 鲜 少 使 用 多 维 数组 的 原因 之 一 便 
在 于 此 )， 前 面 说 过 ee 包装 而 已 ，C 语 言 中 并 没有 
真 正 的 多 维 数组 ， 而 是 将 其 解读 成 内 存 中 的 一 维 的 连续 内 存 ， 但 是 当 我 们 遍历 它 的 
时 候 ，C 语 言 为 了 不 让 我 们 被 底层 实现 所 困扰 ， 所 以 生成 了 多 维 数组 遍历 的 假象 : 


让 我 们 重 温 一 遍 "多 维 数组 ": 


#include <stdio.h> 
int main(void) 


{ 
int dim 1 arr[4] 2 
Int dim 2 arr[2][2] = { {i, 2}, {3, 4} }; 
int result 1 = 0; 
int resujt 2 = 0; 
for(int i = 0;i < 4;++i) 
result 1 += dim 1 arr[i]; 
return 0， 
} 


此 例 中 ， 对 一 维 数 组 进行 步 长 为 1 遍历 求 和 ， 假 设 内 存 中 数组 的 起 始 位 置 是 0 


© => 4 => 8 => 12 


for(int j = 0;j < 3;++j){ 
for(int i = 0;i < 3;++i){ 
result 2 += dim 2 arr[i][j]; 


此 例 中 ， 我 们 的 步 长 是 多 少 呢 ? 我们 来 看 一 下 
OF=SY 2 =>34=>9 2 


可 以 很 清晰 的 看 出 两 段 不 同 代码 之 间 的 跳跃 ， 为 什么 ?观察 到 多 维 数组 的 遍历 中 我 
们 和 平时 的 做 法 有 些 不 同 ， 是 先 对 i 进行 遍历 ， 再 对 j 进行 遍历 ， 这 就 导致 了 程 
序 必 须 在 内 存 块 中 无 规律 的 跳动 ， 这 里 的 无 规律 是 计算 机 认为 的 无 规律 ， 虽 然 在 我 
们 看 来 的 确 是 有 迹 可 寻 ， 优 秀 的 编译 器 能 够 对 它 进 行 优化 处 理 。 就 事 论 事 ， 即 这 上 段 
程序 的 空间 局 部 性 比较 差 ， 对 于 一 个 在 内 存 中 大 幅度 跳跃 ， 无 规律 跳跃 的 程序 都 将 
影响 程序 的 性 能 。 这 个 判定 对 于 一 个 连续 的 内 存 块 来 说 是 很 重要 的 ， 比 如 Ci 语言 中 
的 结构 体 。 

实际 上 C 语 言 也 是 能 够 面向 对 象 的 ， 但 是 十 分 复杂 ， 就 像 拿 着 棒子 织 衣 服 一 样 。 而 
C 语 言 的 机 构 体 能 够 让 我 们 在 一 定 程 度 上 初步 理解 对 象 这 个 概念 ， 因 为 它 是 一 个 完 
整 的 个 体 ， 虽 然 对 外 界 毫 不 设防 。 


对 于 结构 体 


#define VECTOR 4 
typedef structt{ 
double salary; 
int index[4]; 
}test_data; 


int main(void) 


{ 
int result 1 = 0; 
int reSsult 2 = 0; 
test_data dim 1 arr[VECTOR]; 
2 ee/ 
for(int i = 0;i < VECTOR;++i) 
{ 
for(int j = 0;j < 4;++j) 
result 1 += dim 1 arr[i].index[j]; 
}/* for loop 1 */ 
for(int j = 0;j < 4;++j) 
{ 
for(int i = 0;i < VECTOR;++i) 
result 2 += dim 1 arr[i].index[j]; 
}/* for loop 2 */ 
return 0O; 
} 


还 是 和 上 方 一 样 ， 假 设 dim 1 arr 起 始 位 置 为 
for loop 1 : 

8 => 12 => 16 => 20 ==> 32 => 36 => 40 
for loop 2 : 


8 => 32 => 56 => 80 ==> 12 => 36 => 60 


0 


=> 44 


=> 84 


三 三 之 


= 三 > 


从 上 方 不 完整 的 比较 来 看 ，loop 1 相对 于 loop 2 来 说 有 更 好 的 空间 局 部 性 ， 很 明 
显 在 loop 2 中 ，CPU 读 取 是 在 无 规律 的 内 存 位 置 跳跃 ， 而 loop 1 则 是 以 单调 递增 
的 趋势 向 前 (这 里 的 向 前 指 的 是 直观 上 的 向 前 ) 读 取 内 存 。 


e 在 此 处 回顾 一 下 C 语 言 的 结构 体 性 质 与 知识 : 
o 对 于 任意 一 个 完整 定义 的 结构 体 ， 每 一 个 对 象 所 占有 的 内 存 大 小 都 符合 内 
存 对 齐 的 规则 。 
o 对 于 结构 体内 的 各 个 成 员 而 言 ， 其 相对 于 对 象 存储 地 址 起 始 的 距离 ， 称 为 
偏 移 量 。 
@ 解释 : 


o 内 存 对 齐 便 是 对 于 一 个 结构 体 而 言 ， 其 所 占 内 存 大 小 总 是 最 大 成 员 的 整数 
倍 ， 其 中 最 大 成 员 指 的 是 最 基本 成 员 ， 即 : 


typedef structf{ 
test data test 1; 
int test 2; 
}test_data 2; 


/A 

printf("The size of test data 2 = %d\n",sizeof(test_ dat 
a_2)); 

2 


输出 : The size of test data 2 = 32 


typedef struct{ 
int index[4]; 
int store 1; 
int store 2; 
}test_data 3; 
typedef struct{ 
test data 3 test 3; 
int test_4; 
}test_data 4; 


人 
printf("The size of test data 4 = %d\n",sizeof(test_ dat 


a_4)); 
WR 


输出 : The size of test data 2 = 28 


仔细 对 比 test_data_ 3 与 test_data 的 差异 ， 可 以 发 现 不 同 处 ， 在 前 
者 的 内 部 包含 了 一 个 double 类 型 的 成 员 ， 在 我 的 机 器 上 它 的 长 度 为 8 
， 后 者 的 内 部 包含 了 两 个 int 类 型 的 成 员 ， 每 个 长 度 为 4 ， 但 是 他 们 
的 长 度 在 直观 上 是 一 样 的 ! 但 是 申 正 在 使 用 的 时 候 我 们 才能 察觉 到 其 中 的 
差异 ， 这 就 是 我 所 说 的 最 基本 成 员 的 意义 所 在 。 虽 然 我 们 在 使 用 结构 体 的 
时 候 ， 能 够 将 其 当 作 一 个 整体 ， 但 是 实际 上 他 们 与 内 建 (build-in) 的 类 型 还 
是 有 一 些 差异 的 。 


o 偏 移 量 通俗 地 说 ， 就 是 该 成 员 起 始 地 址 距离 起 始 位 置 的 长 度 ， 在 结构 体 
中 ，C 语 言 是 怎么 为 结构 体 分 配 设 定 大 小 的 呢 ? 除 了 内 存 对 齐 外 ， 还 需要 
考虑 定义 结构 体 时 ， 其 中 成 员 的 声明 顺序 ， 换 多 话说 ， 谁 首先 声明 ， 谁 的 
位 置 就 靠 前 。 而 某 个 成 员 的 偏 移 量 代表 着 其 起 始 位 置 减 去 其 所 属 对 象 的 起 
始 位 置 ，( 此 处 需要 注意 的 是 ， 两 个 毫 不 相干 的 指针 相 减 所 得 到 的 结果 是 无 
意义 的 ， 只 有 当 两 个 指针 同 在 一 个 作用 域内 时 ， 减 法 才 是 有 意义 的 ， 为 了 
避免 潜在 的 错误 ， 我 们 要 谨 惯 使 用 指针 减法 操作 )。 
。 就 此 回 过 tr loop 解释 ， 应 该 能 够 理解 到 ， 那 些 数字 是 通过 偏 
移 量 来 进行 计算 得 到 的 。 
@ 之 所 以 没有 详细 的 介绍 时 间 局 部 性 是 因为 ， 对 于 时 间 局 部 性 而 言 ， 其 最 大 的 影 
响 因素 便 是 操作 区 域 的 大 小 ， 比 如 我 们 操作 的 数组 或 者 文件 的 大 小 ， 越 小 时 间 
局 部 性 越 好 ， 试 想 一 下 对 于 一 个 小 的 文件 和 大 的 文件 ， 我 们 更 容易 操作 到 同一 


块 地 方 多 次 的 ， 必 定 是 小 的 文件 。 而 操作 文件 的 大 小 有 时 候 并 不 能 很 好 得 成 为 
我 们 的 操作 因素 ， 故 只 能 多 关注 空间 局 部 性 。 


速 缓存 器 


. 在 前 方 提 到 了 ， 一 般 情 况 下 ， 局 部 性 好 的 程序 能 够 让 程序 比 局 部 性 差 的 程序 更 
有 效率 ， 而 对 于 局 部 变量 而 言 ， 一 个 好 的 编译 器 总 是 尽 可 能 的 将 之 优化 ， 使 其 
攻 充 分 使 用 CPU 寄存 器 ,那么 寄存 器 的 下 方 , 也 就 是 速度 最 接近 寄存 器 的 , 便 是 所 
谓 的 高 速 缕 存 器 了 ， 对 于 高 速 缓存 器 而 言 ， 其 最 大 的 功效 便 是 缓冲 ， 缓 冲 有 两 
层 意思 : 


o 缓存 数据 ， 使 下 一 次 需要 的 数据 尽 可 能 的 “靠近 "CPU， 此 处 的 靠近 并 不 是 
物理 意义 上 的 距离 靠近 
o 缓冲 一 下 CPU 于 存储 器 巨大 的 速度 差距 ， 防 止 CPU 空 闲 浪费 。 
.对 于 现在 的 计算 机 而 言 ，CPU 基 本 都 是 三 层 缓 存 : 一 级 缓存 (L1), 二 级 缓存 (L2)， 
三 级 缓存 (L3)， 可 以 通过 | /Mac OS 系统 报告 来 查看 自己 的 
CPU 缓存 ， 在 软件 中 我 们 能 够 看 到 ， 在 一 级 缓存 中 会 分 为 两 个 部 分 : 一 级 数 
据 ， 一 级 指令 ， 这 代表 着 只 读 写 数据 ， 只 读 写 指令 ， 这 样 分 开 的 意义 在 于 处 理 
器 能 够 同时 处 理 一 个 数据 和 一 个 指令 ， 上 述 所 说 的 都 是 对 于 一 个 CPU 核 而 言 
的 ， 也 就 是 说 当 CPU 是 多 核 的 时 候 ， 那 就 有 多 个 这 种 “功能 集合 (L1+L2)”。 二 
级 缓存 则 与 一 级 缓存 同 在 一 个 核 中 ， 每 个 核 都 拥有 自己 的 二 级 缓存 ， 最 后 所 有 
核 共 享 唯一 一 个 (L3) 


o 总 的 来 说 ， 对 于 高 速 缓存 器 来 说 ， 一 般 分 为 三 层 ， 第 一 层 比较 特殊 由 独立 
的 两 个 部 分 组 成 ， 第 二 层 第 三 层 则 是 各 自 独 立 一 体 并 未 区 分 功能 ( 既 存 数据 
又 存 指令 )， 而 第 一 层 和 第 二 层 则 是 每 个 核 单 独 享 有 不 同 的 缓存 器 ， 第 三 层 
则 是 各 个 核 共 享 一 个 层 ， 所 以 我 们 经 常 看 见 在 个 人 计算 机 上 ，L3 的 大 小 经 
常 是 以 MB 为 单位 的 ， 而 第 一 层 则 多 以 KB 甚至 是 Byte 为 单位 。 

o 在 实际 中 ， 喜 欢 研究 计算 机 的 人 经 常会 在 一 些 专业 软件 中 看 见 自己 的 CPU 
配置 ， 在 缓存 一 栏 的 一 级 和 二 级 中 总 能 看 见 2 x 32 KBytes 之 类 的 参 
数 ， 32 代表 的 就 是 某 级 的 缓存 大 小 ， 而 前 方 的 2 则 是 核 数 ， 即 有 几 个 
核 便 有 乘 多 少 ， 和 之 前 所 说 的 一 致 ， 具 体 可 参见 下 方 的 缓存 器 图 示 


高速 缓 存 器 的 各 个 层 依 然 遵守 逐步 降 速 的 规律 ， 即 读 取 周 期 LT1<L2 <L3， 而 
影响 较 大 的 便 是 上 文 提 到 的 的 命 ee 我 们 知道 越 上 层 的 高 速 缓存 器 总 是 将 下 
层 的 存储 中 映射 在 自己 的 存储 器 中 ， 而 按照 逻辑 推断 ， 上 层 的 实际 空间 比 下 层 

的 要 小 ， 因 为 上 层 的 空间 更 加 宝贵 速度 更 快 ， 这 就 导致 我 们 无 法 将 下 层 的 空间 


一 一 对 应 的 映射 到 上 层 里 ， 那 么 我 们 就 想到 一 个 办 法 ， 并 不 是 将 下 层 存 储 器 0 
容 完 全 映射 到 上 上层， 而 是 上 层 有 选择 性 的 将 下 层 的 部 分 内 容 抽取 到 上 层 ， 这 
便 是 不 命中 之 后 的 操作 。 


. 对 于 CPU 从 存储 器 中 读 取 数据 这 个 操作 ， 如 果 我 们 使 用 了 高 速 缓存 以 及 内 存 这 
两 个 概念 ， 那 么 就 会 有 一 个 延伸 概念 ， 命 中 。 而 对 于 这 个 概念 只 有 两 种 情况 ， 
命中 或 者 不 命中 。 而 对 于 一 个 初始 化 的 高 速 缓存 器 ， 它 一 定 是 空 的 ， 也 许 在 物 
理 意 义 上 它 并 不 是 室 ， 但 是 实际 上 在 程序 看 来 它 的 确 是 空 的 ， 为 了 区 分 这 个 

高 速 缓存 器 专门 使 用 了 一 个 位 (bit) 来 表示 此 组 是 否 有 效 ( 即 是 否 为 宣 )， 既 然 它 
是 空 的 那么 ， 我 们 第 一 次 无 论 如 何 都 无 法 命中 数据 ， 这 时 候 该 层 的 高 速 缓存 器 

就 会 向 下 一 层 ， 在 该 层 中 寻找 所 要 的 数据 ， 每 次 要 向 下 一 层 申 请 寻找 的 行为 一 
般 称 为 惩罚 ， 而 当 我 们 从 存储 器 中 将 所 需 的 数据 加 载 到 高 速 缓存 器 中 的 时 候 ， 
我 们 便 开 始 了 运算 ， 而 一 切 关 于 高 速 缓存 器 效率 的 改进 都 集中 在 命中 率 的 提 

升 。 


o 假设 有 一 个 数组 需要 操作 ， 由 于 数组 是 一 个 连续 的 内 存 空间 ， 对 其 进行 步 
长 为 1 的 操作 拥有 很 好 的 空间 局 部 性 ， 那 么 可 以 当成 一 个 很 好 的 例子 ， 
在 高 速 缓存 器 看 来 读 取 一 个 有 n(n>N) 个 元 素 的 数组 vector 并 不 是 一 
次 性 读 完 ， 而 是 分 次 读 取 ， 如 果 读 取 了 k 次 那么 至 少 有 k 次 不 命中 ， 这 
是 不 可 避免 的 ， 而 对 于 读 取 的 数据 也 不 一 定 是 我 们 需要 的 ， 用 书 上 的 例子 
来 说 : 

vector:|[O]1[1i]IE2]1[E3]I[EIIEIIEIILIILII I | 

假设 操作 数组 的 每 一 个 元 素 ， 我 们 一 次 读 取 三 个 内 存 的 值 ， 半 型 

为 int ， 因 为 原理 都 一 样 。 那 么 在 初始 化 时 候 ， 高 速 缓存 器 为 室 ， 在 第 
一 次 操作 的 时 候 ， 读 取 了 四 个 (如 上 所 示 )， 此 时 一 定 经 过 了 一 次 不 命中 。 


很 好 理解 ， 因 为 缓存 器 空 ， 所 以 第 一 次 操作 必然 不 命中 ， 所 以 我 们 需要 向 

下 级 存储 器 读 取 我 们 需要 的 数据 ， 那 么 第 二 访问 高 速 缓存 的 时 候 ， 可 以 命 

中 vector[9] ， 依 次 命中 后 续 两 个 ， 直 到 需要 vector[4] ， 出 现 了 不 
命中 ， 那 么 我 们 就 需要 重复 上 一 步 ， 再 次 读 取 三 个 数据 ， 依 次 类 推 直到 结 

来 o 

vector:|[9]1[1]1[2]1[3]1L54]1[55]1[56]157]10D1D10DI 


现在 我 们 能 够 从 一 定 层面 上 解释 为 什么 局 部 性 好 的 程序 比 局 部 性 差 的 程序 
要 有 更 好 的 效率 了 ， 原 因 就 在 对 于 高 速 缓存 器 的 利用 ， 首 先 反复 利用 本 地 
临时 变量 能 够 充分 的 调用 高 速 绥 存 器 的 功能 做 到 读 写 的 最 优化 ， 其 次 步 长 
为 越 小 也 越 能 尽 最 大 的 能 力 发 挥 高 速 缓存 器 读 取 的 数据 ， 在 这 点 上 再 回 过 


头 思考 多 维 数组 的 遍历 并 进行 操作 ， 如 果 没 有 考虑 空间 局 部 性 ( 即 先 操 作 大 
块 ， 再 操作 小 块 )， 那 么 在 高 速 缓存 器 中 ， 它 的 不 命中 率 令 人 发 指 ， 这 也 是 
操作 不 当 效率 低 的 原因 。 


高 速 


o 另 一 方面 ， 对 于 不 同步 长 而 言 ， 其 影响 的 也 是 高 速 缓 存 器 的 命中 率 ， 还 是 
上 方 的 vector 


步 长 2 
不 命中 /命中 |1/4|1/2|12/3|1/1|1/1| 


可 以 看 出 来 ， 对 于 步 长 而 言 ， 当 到 了 一 定 的 上 限 以 后 ， 每 次 的 请 求 都 会 不 
命中 ， 那 么 这 时 候 本 层 的 高 速 缓存 器 相当 于 作废 ， 时 间 全 都 耗费 在 下 层 数 
据 传送 到 上 层 的 时 间 ， 因 为 每 次 读 取 都 是 不 命中 ， 可 以 利用 上 方 的 例子 自 
己 试 着 推理 一 下 。 


o 以 上 所 说 的 每 次 读 取 下 一 级 别 存储 器 数据 的 时 候 ， 都 是 按照 内 存 对 齐 ， 来 
读 取 的 ， 如 果 你 的 内 存 数据 ， 例 如 读 取 结 构 体 时 ， 没 有 放 在 内 存 对 齐 的 位 
置 (此 处 所 说 的 内 存 对 齐 位 置 是 以 每 次 该 级 别 存储 器 读 取 的 大 小 为 对 齐 倍 
数 ， 而 不 是 结构 体 在 内 存 中 存储 时 的 内 存 对 齐 位 置 )， 那 么 会 将 该 位 置 的 前 
后 补 齐 倍数 的 起 始 位 置 来 读 取 


下 一 级 别 存储 器 0123456789ABCDEF 

结构 体 数据 存放 位 置 在 4~F 

每 次 该 级 别 的 存储 器 读 取 12 个 数据 

那么 本 次 由 于 结构 体 存 放 的 没有 对 齐 到 提取 的 内 存 位 置 ， 所 有 提取 的 可 能 
会 是 0~B 


也 就 意味 着 ， 并 不 是 每 次 缓存 读 取 都 是 如 此 的 完美 ， 恰 好 都 从 内 存 中 数据 
的 首部 开始 读 取 ， 而 是 整 片 根据 内 存 倍数 进行 读 取 。 


3. 在 参考 文献 中 提 到 了 一 种 优化 程序 的 技巧 ， 便 是 充分 的 利用 高 速 缓存 器 ， 并 且 
不 受 缓存 器 大 小 的 限制 ， 做 法 是 当 所 操作 的 数据 过 大 的 情况 下 ， 通 过 构造 循环 
来 创建 一 个 有 一 个 大 块 ， 这 些 块 能 够 被 高 速 缓 存 器 容纳 ， 那 么 我 们 就 能 够 充分 
利用 高 速 缕 存 器 来 实现 功能 。 


| 
| | Li | | LL | |  L2 高 速 缓存 器 | | 
| | 一 级 数据 | | 一 级 指令 | | 二 级 缓存 器 。 | | 


参考 :[1] 深 入 理解 计算 机 系统 --Randal E.Bryant / David 
O'Hallaro 


0x09- 未 曾 领 略 的 新 风景 


@ 前 方 曾 提 到 两 个 关键 字 restrict 和 inline 在 C 语 言 中 的 使 用 ， 但 是 后 
者 可 能 还 能 带 来 些许 理解 上 的 便利 ， 开 局 -03 优化 是 一 个 很 不 错 的 选择 。 

e inline 的 作用 还 是 在 于 和 static 一 起 使 用 ， 让 小 函数 尽 可 能 的 减 小 开销 
甚至 消除 函数 开销 。 

e。 restrict 最 重要 的 还 是 在 于 编译 器 的 优化 上 。 编 译 器 能 够 为 我 们 的 程序 提 
供 优化 ， 这 是 众所周知 的 ， 但 是 编译 器 是 如 何 优化 的 ， 知 道 的 人 少 之 又 少 ， 其 
中 有 一 些 优 化 是 建立 在 编译 器 能 够 理解 你 的 代码 ， 或 者 说 编译 器 要 认为 你 的 代 
码 是 可 以 被 优化 的 情况 下 ， 才 会 采取 优化 措施 : 


o 有 一 个 很 重要 的 地 方 ， 称 为 指针 别名 ， 是 阻碍 编译 器 优化 代码 的 最 重要 的 
地 方 
o 什么 是 指针 别名 ? 


void tmp_plus(int * a, int * b) 


{ 
for(int i = 0; i < b_len;++i) 
Pa ll 


这 段 代码 中 ，a ，b 是 两 个 被 传 入 的 指针 ， 编 译 器 对 他 们 毫 无 所 知 ， 也 
不 知道 a 是 否 在 b 的 范围 之 内 ， 故 无 法 对 其 做 出 最 大 程度 上 的 优化 ， 这 
会 导致 什么 结果 呢 ? 也 就 是 ， 每 依次 循环 过 后 ， *a 的 结果 都 会 写 回 到 主 
存 当 中 去 ， 而 不 是 在 寄存 器 里 迅速 进行 下 一 次 增加 ! 

或 者 有 的 聪明 的 编译 器 可 以 将 其 扩展 成 if ..， else 的 加 长 版 形式 来 避 
免 写 回 操作 。 


但 是 如 果 我 们 增加 了 restrict 


void tmp_plus(int * restrict a, int * restrict b) ... 


这 就 是 告诉 编译 器 ， 这 两 个 指针 是 完全 不 相干 的 ， 你 可 以 放心 的 优化 ， 不 


会 出 错 。 


e 但 是 在 这 里 有 一 些小 的 问题 ， 那 就 是 C++ 并 不 支持 这 个 关键 字 ， 这 会 导致 什 
么 后 果 ? 


o 你 在 Visual Studio 下 编程 的 时 候 会 发 现 使 用 restrict 关键 字 是 会 产 
生 编 译 错误 的 ， 无 论 你 使 用 ,c 还 是 .cpp ， 难 道 说 不 支持 吗 ? 实际 上 
不 是 ， 主 流 的 编译 器 都 对 这 个 关键 字 有 自己 的 实现 
o Visual Studio(Visual C++) : _ restrict 
o GCC, Clang: restrict 
e 剩 下 一 个 是 前 面 也 大 概 说 过 的 volatile ， 当 时 对 其 的 解释 就 是 让 编译 器 不 
对 其 进行 优化 的 意思 ， 这 里 再 说 清楚 一 点 


o 假设 volatile int i = 0; 

o 首先 它 的 现象 本 质 就 是 ， 确 保 每 次 读 取 i 的 时 候 ， 是 从 它 的 内 存 位 置 读 
取 ， 每 次 对 它 操作 完毕 后 ， 将 结果 写 回 它 的 内 存 位 置 ， 而 不 是 将 其 优化 保 

o 这 就 让 一 些 编译 器 的 优化 无 法 进行 ， 就 像 上 方 所 说 的 。 

o 一 般 将 其 用 在 调试 时 期 ， 防 止 编 译 器 的 优化 对 自己 的 代码 逻辑 造成 混淆 。 

o 但 是 ， 正 如 上 面 所 说 ， 这 个 关键 字 的 作用 是 每 次 都 进行 存 取 ， 开 销 自然 就 
变 大 了 ， 意 味 着 无 法 使 用 缓存 来 对 其 进行 加 速 ， 换 句 话 来 说 就 是 ， 只 要 是 
关于 它 的 操作 ， 开 销 都 将 变 大 。 

o 并 且 ， 其 所 能 起 到 的 作用 大 部 分 体现 在 多 线程 编程 中 ， 而 且 也 无 法 阻止 指 
令 重 排 之 类 的 优化 。 

@ 对 此 ， 有 一 个 需要 提 及 的 内 容 是 ， 可 以 适当 的 使 用 内 存 屏 障 来 替代 
这 种 volatile 的 功能 ， 内 存 屏 障 是 由 操作 系统 提供 的 功能 ， 目 的 是 
防止 由 于 茶 些 优化 ， 导 致 的 指令 重 排 的 效果 。 

四 某 些 编译 器 也 有 提供 类 似 的 功能 ， 例 如 GCC 就 可 以 通过 内 肉 汇 编 代 
码 的 方式 实现 这 个 效果 

o 以 上 的 略微 提 及 ， 详 细 可 以 自行 查阅 资料 。 


再 议 数 组 
e@ 在 常见 C 中 ， 数 组 是 这 样 的 。 


int arr_1[3]; 
int arr 2[] = {1，2，3}，/* 创建 三 个 元 素 的 数组 */ 


C99 之 后 ， 可 以 使 用 一 种 叫做 复合 文字 (Compound Literal) 的 机 制 来 做 到 更 多 
的 事情 ， 最 简单 的 就 是 创建 匿名 数组 (看 着 有 点 像 C++11 引 进 的 Lambda 匿名 函 
数 ) : 


int *ptoarr = (int[]){1，2，4}， /* 之 后 可 以 使 用 ptoarr 操作 * 
/ 

ptoarr[2] = 0; 

printf("The Third number is : %d", ptoarr[2]); 


输出 : $$ The Third number is :0 


当然 ， 这 种 机 制 并 不 是 只 能 如 此 使 有 用， 稍微 高 级 一 点 的 应 用 是 ， 可 以 传递 数组 
了 ， 无 论 是 按 参 数 传递 还 是 返回 值 。 


int *test_fun(int most[], int length)t{ 
for(int i = 0;i < length;++i) 
most[i] = i; 
return (int []){most[0], most[1], most[2], most[3]...};/* 
so on */ 
} 
// main 
test_fun((int []){6,6,6,6,6}, 5); 


这 也 是 自从 更 新 了 C99 标 准 以 后 ， 可 以 讲 某 个 整体 进行 返回 的 例子 ， 也 包括 结 
构 体 : 


typedef struct compond{ 

int value; 

int number ; 

int arrays[10]; 
}compond; 
// 假 设 有 test_fun 哆 数 返回 该 结构 体 


return (combond ){ 
1，// 给 value 
2，// 给 number 
{most[0], most[1], most[2], most[3]...}}; 
// 给 arrats 


当然 也 可 以 构造 完成 之 后 再 返回 实体 ， 不 过 这 么 做 不 如 上 面 写 的 效果 好 ， 原 因 
前 方 已 经 提 过 。 


稍微 修改 一 下 结构 体 ， 又 是 另 一 番 情 况 : 


typedef struct compond{ 
int value; 
int number; 
int arrays[]; /* 这 里 不 再 显 式 声明 大 小 ， 也 就 无 法 构造 实体 * 


}compond; 


这 个 方式 很 像 前 方 提 到 的 前 桥 和 弥 的 越界 结构 休 的 例子 ， 只 不 过 这 个 是 一 个 
在 C 标 准 允 许 的 情况 下 ， 而 前 桥 和 弥 则 是 利用 一 些 C 语 言 标准 的 漏洞 达到 目 
的 。 


在 使 用 这 种 结构 体 的 时 候 ， 首 先 要 为 其 动态 分 配 好 空间 ， 之 后 通过 指针 进行 操 
作 ， 也 增 建 了 内 存 泄 汤 的 风险 ， 所 以 仁者 见 仁 智 者 见 智 了 : 


compond* ptocom = malloc(sizeof(compond) + num_you_want * 
sizeof(int)); 
这 样 就 成 功 分 配 了 足够 的 空间 */ 
ptocom->arrays[0|] = some_number; 


free(ptocom); 
ptocom = NULL; 


其 实 并 不 是 这 种 机 制 的 目的 ， 我 觉得 这 种 复合 文字 机 制 的 最 大 用 处 还 是 在 于 
除 艰 涩 难 懂 的 函数 调用 


例如 有 一 个 函数 的 参数 列表 及 其 之 长 ， 我 们 就 应 该 考虑 使 用 新 机 制 结合 结构 
体 ， 来 对 这 个 函数 重新 修饰 一 番 : 


int bad_ function(double price, double count, int number ， 
int sales, Date sale day, Date in_day, 
String name, String ISBN, String market_n 


ame, 
); /* 实现 省 略 */ 

这 种 函数 ， 在 陌生 的 他 人 拿 到 之 后 ， 一 定 头 疫 不 已 ， 可 以 对 它 进 行 一 些 处理 ， 

来 减轻 使 用 时 候 的 苦恼 : 


/* 首先 使 用 宏 进 行 包 衰 */ 
#define good_function(...) 人 
/* 使 用 这 Rs 


接 下 来 定义 一 个 结构 体 ， 用 于 参数 的 接收 。 


/* 接收 参数 的 结构 体 */ 
typedef struct param{ 


double price; /* 销售 价格 */ 
double count; /* 折扣 */ 

int number; /* 总 数量 */ 
int sales; /* 销 售 数量 */ 
Date sale day; /* 销售 日 期 */ 
Date in_day; 7 自习 
String name; /* 货物 名 称 */ 
String ISBN; /* ISBNS */ 
String market_name;  /* 销售 市 场 */ 
}param; 


/* 并 配 上 文档 说 明 每 个 参数 的 作用 */ 


站 


其 次 继续 完成 


/* 此 时 将 函数 的 声明 改 为 : */ 

int bad_function(param input); 

7 

#define good_function(...) {\ 
bad_function((param){_ VA ARGS });\ 





这 就 完成 了 包 襄 
使 用 的 时 候 : 


good_function(.price = 199.9, .count = 0.9, 
.Number = 999, .sale = 20 /*and so on*/) 


也 可 以 在 宏利 使 用 默认 参数 ， 以 此 来 减少 一 些 不 必要 的 工作 量 ， 达 到 像 其 他 高 
级 语言 一 样 的 函数 默认 参数 的 功能 。 当 然 如 果 不 添加 默认 的 值 ， 则 会 按照 标准 
将 其 值 初始 化 为 9 或 者 NULL . 


#define good_function(...) 人 
bad_function((param{.price = 100.0, .count = 1.0, __VA 
_ARGS_})); \ 
/* 假设 想 要 设置 默认 价格 为 100 ， 默认 折扣 为 1.0 * 人 人 


较 之 C89(C90) 的 提取 可 变 宏和 参数 要 来 的 更 加 灵活 及 "高 效 "。 


至 于 VA _ ARGS 宏 的 较为 官方 的 用 法 ， 前 人 之 述 备 侨 ， 就 不 在 这 里 记录 
了 oO 





C11 之 _Generic 
只 看 名 字 就 能 明白 这 是 C 语 言 支 持 泛 型 的 兆头 。 
好 像 很 有 意思 


不 过 菜 些 地 方 依 昌 有 些 限制 ， 比 如 对 于 选择 函数 方面 。 


/* -Std=c11 */ 
void print_int(int x) {printf("%d\n", x);} 
void print_ double(double x) {printf("%f\n", x);} 
void print(){printf("Or else, Will get here\n");} 
#define CHOOSE(x) _Generic((x),\ 
int : print_int,\ 
double : print_double,\ 
default : print)(x) 


调用 它 


int main(void) 

{ 
CHOOSE(11.0); /* 11.000000 */ 
CHOOSE(11.0f); /* Or else, Will get here */ 
return 0， 


缺点 就 在 于 ， ; 后 面 无 法 真正 的 调用 函数 ， 而 是 只 能 写 上 函数 名 或 者 函数 指针 ， 
当然 为 了 突破 这 一 点 可 以 使 用 宏 瞪 套 来 间接 实现 这 一 点 ， 但 是 归根 结 底 ， 无 法 在 
后 面 调用 六 数 。 


#define CHOOSE(X) _Generic((x), \ 

int : prinf("It is Int")\ 

double : printf("It is double"))(x) 
/* Compile Error! */ 


这 样 做 会 导致 编译 错误 ， 编 译 器 会 告诉 你 CHOOSE 并 不 是 一 个 函数 或 者 函数 指 
针 ， 看 起 来 错误 很 无 厘 头 ， 实 际 上 一 想 ， 你 要 是 在 : 之 后 调用 了 函数 ， 那 么 左 后 
一 个 括号 该 如 何 自 处 ， 唯 一 的 办 法 就 是 返回 函数 指针 : 


typedef void (*void p_double)(double); 
typedef void (*void p_int)(int); 


void print_ detail double(double tmp)t{ 
printf("The Double is %f\n", tmp); 

} 

void print_ detail int(int tmp)t{ 
printf("The Int is %d\n", tmp); 


void p_int print_int()t{ 
printf("It is a Int! "); 
return print_ detail int; 

} 

void p_double print double() { 
printf("It is a Double! "); 
return print_ detail double; 


void print_ default(){printf("Nothing Matching !'\n");} 
#define CHOOSE(x) _Generic((x),\ 
int : print_int(x),\ 
double : print_double(x),\ 
default : print_default)(x) 


调用 : 


CHOOSE(11); /* It is a Int The Int is 11 */ 

CHOOSE(11.0); /* It is a Double The Double is 11.000000 */ 
CHOOSE(11.0f); /* Nothing Matching ! */ 

choose(111); /* Nothing Matching ! */ 


对 于 宏 而 言 ， 最 新 的 编译 器 支持 ， #program once ， 将 这 个 放 在 头 文件 
中 ， 就 代表 该 头 文件 只 编译 一 次 ， 也 就 是 说 ， 可 以 替代 原 有 的 老式 
#ifdef 的 三 段 式 保护 ， 具 体 编译 器 支持 请 查询 各 编译 器 。 


函数 返回 实体 


e 许多 年 前 ， 在 C 编 程 的 普遍 常识 是 ， 返 回 指针 ， 而 不 是 一 个 实体 。 

。 但 是 现在 ， 在 这 个 C99(C11) 世 纪 ， 早 已 经 打破 这 个 局 限 ， 无 论 是 从 程序 员 编 写 
的 语法 角度 看 ， 亦 或 者 是 从 编译 器 的 优化 角度 看 ， 都 不 在 需要 特地 的 将 一 个 实 
体 表 示 为 指针 进行 返回 


combine* ret_ struct(combine* other)t{ 
/* 这 里 的 参数 也 是 指针 ， 因 为 当时 并 不 允许 直接 给 结构 体 进 行 赋值 */ 
int value = other->filed value; 
/* SomeThing to do */ 
combine* p_local ret com = malloc(sizeof(combine)); 
/* 一 系列 安全 检查 */ 
return p_local ret_ com; 





这 在 当下 自然 也 是 可 以 的 ， 而 且 会 有 不 错 的 性 能 ， 但 是 。 但 是 这 也 是 C 语 言 最 
令 人 诉 病 的 地 方 ， 你 却 深 深 的 路 了 进去 。 


尽量 少 用 malloc(calloc，realloc) 之 类 的 内 存 操作 函数 ， 是 现代 C 编 程 

的 一 个 指标 ， 在 这 个 函数 中 ， 我 们 没有 办 法 保证 分 配 出 去 的 内 存 能 够 回收 (因为 
就 这 个 函数 而 言 并 没有 回收 这 个 内 存 )， 虽 然 现代 计算 机 (非特 殊 机 器 ) 的 内 存 已 
经 不 在 乎 那 几 十 个 甚至 几 百 个 中 等 结构 体 的 内 存 泄 漏 ， 但 是 内 存 泄露 依然 是 C 

语言 最 严重 的 问题 ， 没 有 之 一 。 


我 们 该 做 的 就 是 尽量 减少 风险 的 发 生 率 : 


combine ret_struct(combine other)t{ 
/* C99 之 后 ， 我 们 就 开始 允许 直接 给 结构 体 赋值 ， 
意味 着 可 以 直接 返回 结构 体 了 */ 
combine loc_ret_ com; /* 如 果 没 有 复合 的 结构 体 成 员 的 话 ， 各 成 员 
会 自动 初始 化 为 0， 不 必 担 心 初始 化 问题 */， 
/* Do SomeThing to 'loc_ ret com' with 'other' */ 


return loc_ret_com; 
} 
/* main */ 
int main(void) 


{ 
combine preview = {...}; 
combine action = ret_struct(preview); 
return 0O; 

} 


这 么 做 的 目的 自然 是 为 了 让 我 们 的 风险 降 到 最 低 ， 让 系统 栈 帮 我 们 管理 内 存 ， 

包括 创建 -> 使 用 -> 回收 ， 这 个 过 程 (就 像 被 其 他 语言 所 津津 乐 道 的 GC 机 制 ， 实 

际 上 C 语 言 程序 员 可 以 选择 自己 实现 一 个 垃圾 回收 机 制 ， 在 本 系列 的 最 后 面 可 
A A til 共 大 家 参考 ， 但 是 首先 让 我 们 看 完 风景 ， 再 用 一 个 
实际 程序 串联 起 来 后 ， 再 去 考虑 GC) 不 需要 你 来 操心 。 


但 是 这 鼻 的 是 最 好 的 形式 了 吗 ? 
让 我 们 回想 一 下 C 语 言 在 调用 函数 的 时 候 发 生 的 某 些 事情 ， 因 为 最 开始 的 我 们 
是 从 main 远 数 的 调用 开始 我 们 的 程序 


o 也 就 是 说 ， 系 统 在 栈 上 位 这 个 函数 分 配 了 空间 
o 紧 接着 我 们 调用 了 函数 ret_struct 
o 调用 之 后 ， 为 了 保存 现 有 状态 ， 栈 里 会 被 压 入 许多 信息 ， 包 括 当 
下 main 的 位 置 以 及 ret_struct 的 各 种 参数 等 等 ， 其 中 有 一 个 东西 就 


是 返回 地 址 
加 ee en ret_struct 之 后 我 们 能 够 顺利 
的 返回 main 调用 它 的 位 置 继续 执行 


a 这 个 和 我 们 要 讲 的 有 什么 es 
o 没关系 我 会 乱 说 = = 
o 一 般 来 说 ， 在 函数 返回 一 个 值 (把 所 有 对 象 ， 值 都 称 为 值 ) 时 ， 由 于 这 个 值 


是 在 函数 中 创建 的 (无 论 是 传 入 的 参数 ， 还 是 在 函数 里 创建 的 

非 static 对 象 ， 即 便 是 static 或 者 全 局 变量 情况 也 是 一 样 只 是 不 符 

合 这 个 假设 结论 罢了 )， 所 以 在 函数 结束 后 ， 栈 空间 被 回收 ， 它 就 被 默认 的 
销毁 了 (可 以 参考 前 桥 和 弥 的 书 里 有 这 个 的 解释 ， 实 际 上 值 并 没有 站 正 被 销 

毁 了 ， 但 是 不 允许 再 用 ， 和 否则 视 为 非法 )， 但 是 我 们 是 怎么 接收 到 有 阴 数 的 返 

回 值 的 ? 

当然 是 因为 程序 帮 你 拷贝 了 一 份 这 个 作 ee 

而 这 个 副本 再 使 用 过 以 后 就 会 立即 被 销毁 ， 那 么 我 们 如 果 像 上 方 那么 返回 

一 个 结构 体 的 话 会 发 生 什 么 复制 副本 -> 销 角 本 地 的 原 身 - 

> 将 这 个 副本 的 值 赋 给 外 部 接收 的 变量 (没有 则 销 妈 ) -> 销毁 副本 

这 有 什么 问题 ， 难 道 还 有 更 好 的 方法 ? 


那 自 然 有 啊 


现代 科技 飞速 发 展 ， 编 译 器 也 不 甘 示 弱 ， 只 要 你 外 部 有 接收 的 地 址 ， 在 (不 
开 优 化 的 情况 下 ， 开 了 优化 也 可 能 因为 版 本 问题 或 者 某 些 不 可 抗力 而 不 优 
化 ) 直 接 return 对 象 的 情况 下 ， 是 可 以 省 去 副本 的 操作 的 


也 就 是 说 : 
/* 改 写 上 方 代 码 */ 
combine ret_struct(combine other)t{ 
other->filed value = ...; 


/* SomeThing to other */ 
return (combine){ .filed value = other->filed value 


上; 


如 果 这 么 写 ， 编 译 器 就 知道 ， 哟 |! 你 是 想 要 把 这 个 对 象 放 到 外 边 使 用 是 
吧 ， 那 我 懂 了 ， 就 直接 找到 ee 个 值得 变量 地 址 ， 不 再 创建 副本 (其 
实 还 是 创建 ， 只 不 过 不 再 销毁 而 已 )， 而 是 在 那个 变量 地 址 中 写 入 这 个 对 
象 o 

这 就 实现 了 让 系统 帮 你 管理 内 存 的 目的 ， 而 不 是 担心 是 否 没 有 释放 内 存 带 
来 的 风险 ， 而 且 还 优化 了 性 能 ， 何 乐 而 不 为 。 


注 : 关于 上 方 提 到 的 开 了 优化 也 可 能 因为 版 本 问题 或 者 某 些 不 可 抗力 而 不 
优化 这 个 说 法 是 有 道理 的 ， 因 为 大 家 的 编译 器 版 本 都 不 一 样 ， 有 的 人 用 老 
版 本 那 自 然 没 有 这 个 优化 了 ， 有 的 则 是 因为 你 编写 的 程序 逻辑 上 的 构造 导 


致 编译 器 无 法 为 此 处 产生 如 此 的 优化 ， 这 个 请 参考 前 方 提 到 的 书本 深入 理 
解 计算 机 系统 的 优化 章节 。 让 然 编译 原理 要 是 能 看 自然 更 清楚 咕 (ps: 我 还 
没 看 ) 

o 题 外 话 : 这 个 方法 对 于 C++ 同样 适用 


0x0A-C 线 程 和 Glib 的 视角 


C11 之 线程 


i 的 实现 。 
看 不 懂 这 一 次 GCC 什么 用 意 ， 都 四 年 过 去 了 。 
所 以 现在 在 写 跨 平台 多 线程 的 程序 时 我 一 般 选 择 使 用 Qt 这 个 框架 (C++) 。 


当然 ，C 语 言 发 展 了 这 么 多 年 了 ， 自 然 少不了 自己 的 第 三 方 库 ， 实 际 上 标准 库 只 提 
供 了 很 小 的 一 部 分 内 容 ， 其 至 连 某 些 常用 的 数据 结构 都 未 曾 实 现 ， 我 们 该 一 直 反 复 
造 轮子 吗 ? 


当然 不 ! 


在 这 个 C 的 变 成 世界 里 ， 有 许多 实用 的 库 ， 其 中 最 有 名 的 且 最 通用 ( 跨 多 个 平台 的 实 
现 包 括 Windows， 要 知道 很 多 实用 的 编程 库 都 不 提供 Windows 的 实现 ) 就 是 GLib 这 
个 库 ， 其 中 就 有 实现 线程 的 部 分 


但 是 ， 因 为 这 是 中 文 的 ， 看 的 人 自然 不 是 焉 果 仁 ， 中 国 编程 新 手 大 都 还 是 习惯 用 
Windows 环境 ， 也 不 做 强求 ， 仁 者 见 仁 智者 见 智 ， 后 续 会 有 一 个 程序 作为 例子 ， 

其 中 简单 的 应 用 了 多 线程 的 知识 来 写 一 个 备份 软件 ， 线 程 的 实现 是 用 的 Windows 
和 己 的 接口 ， 所 有 这 些 接口 都 能 在 MSDN 里 查找 到 相应 文档 。 


Glib 库 在 Windows 下 的 配置 


之 所 以 不 说 xnix 系统 下 的 配置 是 因为 ， 哪 里 的 配置 太 无 脑 了 ， 特 别 
是 Ubuntu ， 一句 命令 + 有 网 络 基 本 就 配置 完毕 了 。 


e。 使 用 的 是 稳定 版 的 2.28.8 版 本 ， 截 至 目前 可 用 的 最 高 稳定 版 本 为 2.46.x 版 本 

。 将 预 处 理 配 置 好 一 些 步 又 的 glib 打 包 放 在 我 的 网 盘 中 ， 可 以 直接 下 载 ， 添 加 
IDE 的 路 径 就 能 使 用 ， 这 是 对 于 Visual C++ 系列 编译 器 能 用 ， 如 果 用 MinGW 
系列 的 编译 器 就 需要 重新 编译 

e。 如 果 想 自己 配置 ， 也 可 以 前 往 这 个 网 址 进行 下 载 ， 或 者 前 往 GNU 项 目 主 ee 
最 新 的 源码 以 及 工程 文件 自我 编译 ， 方 式 有 很 多 ， 不 使 用 现 有 二 进 制 而 自行 
择 编译 的 大 概 英 过 于 想 使 用 MinGW， 在 MinGW 项 目的 主页 也 有 介绍 


@ 如 果 资 源太 少 ， 可 以 参考 如 何 编译 GTK 项 目的 方法 ， 因 为 GLib 的 前 身 便 
是 GTK 的 一 部 分 ， 只 不 过 后 来 独立 出 来 了 。 


e@ 微软 的 宇宙 级 编译 器 Visual Studio 对 于 C89(C90) 之 后 的 标准 并 不 支持 ， 但 是 
对 其 中 的 特性 却 早早 进行 了 实现 ( 即 没有 可 开启 标准 的 选项 ， 但 是 新 标准 所 说 的 
特性 它 都 拥有 ， 都 能 够 使 用 ， 甚 至 还 要 更 加 超前 ) 


@ 故 接 下 来 的 备份 程序 将 使 用 Visual Studio 2013 进行 编写 。 
。 配置 glib-2.28.8 


。 下 载 编译 好 的 二 进 制 包 ， 预 处 理 好 ( 某 些 操作 ， 不 多 说 ， 网 上 有 教程 ， 记 得 用 谷 
歌 ， 或 者 到 博客 园 里 找 类 似 的 ， 但 是 版 本 比较 老 可 能 和 我 用 的 有 一 些 出 路 ， 但 
可 以 依 着 葫芦 画 有 于) 以 后 ， 将 路 径 配 置 到 工程 里 : 

1. 创建 一 个 Win32 程 序 i 5 ( 左 侧 栏 下 部 寻找 ) 中 创建 属性 表 
(Debug 和 Release 各 创建 一 个 ， 设 置 都 相同 即 可 ) 

2. 打开 新 建 的 属性 表 

3. 通用 属性 ->VC++ 目 录 -> 包 含 目录 -> 编辑 添加 下 载 下 来 的 文件 中 
的 glib\g1lib2.28\include 目录 ， 不 放心 的 还 可 以 再 添加 一 
个 glib\glib2.28\1ib\glib-2.0\include 目录 

4. 通用 属性 ->VC++ 目 录 -> 库 目录 -> 编辑 添加 glib\glib2.28\1ib 目录 

5. 通用 属性 -> 链接 器 -> 输入 -> 附加 依赖 项 添加 glib\glib2.28\1ib 目录 下 
人 .1ib 文件 ， 即 将 这 些 文件 的 名 字 都 手动 输入 进去 ， 如 果 使 用 我 的 

这 个 版 本 的 话 那 就 是 

6. gio-2.0.1ib glib-2.0.1ib gthread-2.0.1ib gmodule-2.0.1ib 
gobject-2.0.1ib 

7. 通用 属性 ->C/C++-> 代 码 生 成 -> 运行 库 开 启 多 线程 /MT 

8. Okay ! 成 了 


休息 一 下 


e@ 其 实 对 于 C 程 序 员 而 言 ， 最 重要 的 莫 过 于 使 用 一 系列 开源 库 ， 而 不 是 对 新 标准 
的 追求 ， 因 为 越 低 的 标准 越 容 易 跨 平台 ， 对 于 库 而 言 这 是 先 华 总 结 的 一 系列 实 
用 的 数据 结构 和 算法 ， 基 至 是 实用 的 框架 。 我 们 不 一 定 需 要 配置 他 们 ， 而 是 从 
里 面 吸取 一 些 他 们 的 技术 ， 转 为 自己 的 代码 ， 毕 竞 库 对 于 很 多 程序 员 编 写 的 程 

序 来 说 都 大 材 小 用 了 ， 但 有 了 时候 又 不 得 不 使 用 一 些 必要 的 数据 结构 和 算法 。 

e@ 在 大 学 的 这 几 年 里 ， 也 许 是 因为 不 过 是 一 个 帅 车 尾 的 一 本 ， 所 以 我 无 法 感受 到 

老师 教授 带 来 的 教导 ， 但 是 也 使 得 我 深 深 的 接触 到 了 开源 ， 开 源 给 予 了 我 很 


多 ， 比 如 更 开阔 的 编程 思路 ， 更 广阔 的 心胸 ， 更 有 进步 的 动力 ， 更 多 的 小 伙 
下 。 当然 也 知道 自己 的 渺小 。 

是 很 多 人 (比如 知 乎 的 回答 人 和 提问 者 )， 都 提 到 要 多 观看 C 的 源 代码 ， 但 是 
对 于 初学 者 ， 甚 至 现在 的 我 感觉 也 不 是 一 件 容易 的 事 ， 更 思 论 初 入 门 的 同学 
了 ， 特 别 是 对 于 许多 上 个 世纪 的 大 神 ， 为 了 节省 空间 以 及 提高 效率 ， 简 直 是 无 
所 不 用 其 极 ! 虽然 某 些 用 法 能 够 被 现代 接受 ， 但 是 你 能 在 第 一 眼 就 看 出 来 ， 为 
了 构造 一 个 红 黑 树 节 点 ， 把 树 的 指针 和 节点 的 颜色 信息 都 隐藏 在 一 个 指针 地 址 
里 吗 ? 


/* 假设 有 一 个 节点 的 指针 p_node */ 
node_color = p_node->node color & 1; /* 原理 就 是 用 最 后 一 位 bit 
来 存储 颜色 */ 


其 中 在 Linux 里 ，p_node->node_color 被 设 定 为 无 符号 的 长 整形 ， 以 整数 
型 式 存储 指针 和 上 颜色 信息 ， 而 不 是 用 指针 类 型 。 


node_pointer = (node_ type*)p_node->node color & ~3;/* 清除 
最 后 两 位 上 的 bit 的 值 */ 


也 就 是 清除 颜色 信息 ， 留 下 的 就 是 指针 的 值 ， 即 地 址 。 


为 什么 呢 ， 只 要 我 么 能 够 保证 节点 的 创建 位 置 是 32 位 /64 位 对 齐 的 ， 我 们 就 能 
够 保证 它 的 最 后 两 位 /三 位 是 空 的 ， 绝 对 不 会 被 使 用 的 。 


7 D1/ 

sizeof(void*); /* 是 4*/ 

/* XXXX XXXX XXXX XXXX XXXX XXXX xxxx xx00 */ 
/* 64 位 */ 

sizeof(void*); /* 是 8 */ 

/* 前 方 省略 48 位 XXXX XXXX XXXX x000 */ 


意思 就 是 ， 对 于 指针 而 言 ， 因 为 编译 器 要 保证 寻 址 的 高 效 所 以 它 在 给 分 配 地 址 
的 时 候 ， 会 对 齐 内 存 中 的 地 址 ， 按 照 指针 大 小 的 倍数 对 齐 ， 这 就 会 导致 不 同位 
的 程序 的 指针 变量 的 值 中 有 几 个 bit 会 没有 使 用 ， 则 用 它 来 存储 。 


具体 的 情况 ， 网 路 上 的 详细 解说 十 分 之 多 ， 开 一 个 头 就 好 。 但 是 这 丨 的 是 我 们 
一 开始 就 应 该 接触 的 吗 ? 


A 


到 


六 


怎么 说 ， 在 很 多 的 时 候 ，C 语 言 给 我 们 的 函数 都 不 够 安全 可 靠 ， 但 是 在 我 们 无 
a We 函数 的 情 a ) 我 们 该 如 何 做 呢 ? 当然 是 自己 
写 ， 怎 么 写 更 完美 ， 自 然 是 看 看 别人 怎么 写 ， 而 不 是 自己 一 抹黑 的 乱 来 ， 因 为 
事实 证 明 ， ee 虽然 不 是 坏事 。 

最 简单 的 做 法 便 是 用 宏 包 衰 一 下 ， 做 一 些 预 处 理 ， 或 者 对 于 宏 机 制 不 大 喜欢 的 
人 会 选择 用 一 个 函数 进行 包 襄 ， 也 未 尝 不 可 。 


写 在 最 末尾 ， 填 几 个 前 面 挖 的 坑 。 

不 知道 是 不 是 故意 的 ， 一 般 GNU 项 目的 子 主页 面 上 ， 找 不 到 (很 难 找 到 ) 对 应 的 
项 目的 下 载 地 址 ， 也 就 是 光 看 着 介绍 如 何如 何 牛 ， 如 何如 何 好 用 ， 但 就 是 不 告 
诉 你 去 哪里 下 ， 这 时 候 ， 首 先 确认 你 要 下 的 这 个 软件 的 名 字 ， 然 后 去 GNU 项 目 
首页 里 的 程序 列表 里 找 ， 在 哪里 一 定 能 找到 ， 而 不 是 在 那些 介绍 页 面 乱 点 ， 结 
果 根 本 找 不 到 。 

最 典型 的 就 是 一 个 叫做 GMP 的 开源 软件 ， 用 来 自行 编译 MinGW 用 的 依赖 ， 和 项 
望 能 警醒 各 位 。 

之 所 以 用 2.28.8 而 不 是 2.46.X 是 因为 我 实在 不 想 自己 在 Windows 上 编译 了 ， 
为 大 部 分 时 候 ， 写 程序 都 是 在 Linux 上 ， 所 以 就 偷懒 一 下 。 

对 于 我 的 文件 是 不 是 有 毒 ， 我 说 有 毒 ， 有 一 种 叫做 叫 你 再 用 Windows 编 程 的 

毒 o 

好 吧 其 实 我 承认 Visual Studio 的 确 是 宇宙 无 敌 的 编译 器 。 


末尾 


接 下 来 的 第 三 部 分 我 会 用 一 个 备份 程序 来 贯穿 


o 操作 系统 : Windows 

o 跨 平 台 : 否 

o API 调 用 : Win32 API 

o 编译 器 : Visual Studio 2013 

o 语言 : Pure C Programing Language 


会 在 里 面 介 绍 一 下 ， 常 在 开源 代码 中 看 见 的 一 些 奇 怪 的 东西 ， 例 如 


#ifdef cplusplLus 
extern "c" { 
#endif 


#ifdef __cplusplus 


} 
#endif 


第 三 部 分 


实用 C 编 程 以 及 程序 实战 


0Xx0B-C 语 言 错 误 处 理 
@ 三 个 必要 的 头 文 件 
#include <stdio.h> 


#include <errno.h> 
#include <string.h> 


extern int errno; 


e@ 四 个 重要 函数 


int ferror(FILE* stream); 
int feof(FILE* streanm); 
char *strerror(int errnum); 
void perror(const char *s); 


e@e 以 上 是 在 错误 处 理 中 常用 的 操作 ， 前 两 者 是 必要 包含 的 ， 最 后 的 函数 则 是 酌情 
使 用 


1. ferror 
@ 检查 流 中 是 否 有 错误 ， 如 果 有 则 返回 一 个 非 9 值 ， 如 果 没 有 错误 则 
返回 0 
2. feof 


m 用 于 检查 是 否 到 了 文件 尾 ， 经 常用 于 文件 的 读 取 工 作 ， 读 取 到 文件 尾 
则 返回 非 零 值 


Input 二 fopen("file.in", We 
while( !feof (input)) 
{ 


fscanf(input, "%s", str); 


等 同 于 
dof{ 
rtn_value = fscanf(input, "%s", str); 


}while(rtn_ value != EOF); 


3. strerror 
四 当 茶 个 泡 数 或 者 操作 触发 了 设置 errno 变量 的 时 候 ， 我 们 可 以 立即 
使 用 该 函数 进行 显示 输出 
strerror(errno); 
输出 : Too many open files 


4. perror 


和 与 上 方 的 函数 相同 ， 也 十 用 来 输出 错误 的 ， 只 不 过 它 自动 使 用 
变 


errno 变量 ， 并 且 在 自前 方 添 加 所 传 入 的 参数 以 及 一 个 冒号 


perror("Now"); 
输出 : Now: Too many open files 
@ 同样 的 ， 对 于 自己 的 错误 处 理 ， 可 以 设计 一 个 小 体系 来 满足 自我 需求 
o 通过 返回 值 
/mn 


void fun_error(size_t errnum); 
size_t test_ fun(int arg); 


在 此 我 们 可 以 让 外 界 接触 不 到 昌 实 的 包含 有 错误 的 数组 或 其 他 数据 结构 ， 
而 是 将 其 放 于 ,c 文件 中 隐藏 起 来 ， 通 过 一 个 函数 来 进行 访问 。 


o 隐藏 错误 实现 


AR 
static const char * fun_err[] = { "Computing nagative!" 


"Invalid argument" 
"Bad result"™" }; 


size _t test fun(int arg) { ... } 
void fun_error(size _t errnum) { ... } 


规格 化 的 设计 来 说 ， 可 以 使 用 enum 或 者 #define 来 
返回 值 的 名 字 


二 


/*fun.h*/ 

#define ERR CMPUTING 0 

#define ERR_INVARG 

#define ERR_ BADRLT 2 

WS DT 

enum { ERR_ COMPUTING 
ERR_INVALIDARG ， 
ERR_BADRESULT }; 


上 


9, 


如 此 我 们 便 可 以 在 函数 中 使 用 错误 的 名 字 代 号 ， 而 不 是 去 记 下 每 个 数字 的 
含义 。 对 此 也 可 以 不 使 用 数组 这 个 数据 结构 来 保存 错误 信息 ， 而 采用 
switch 在 代码 中 实现 错误 的 处 理 


o switch 错误 选择 : 


/*fun.c*/ 
J 
static const char * fun err[] = { "Computing nagative!" 


"Invalid argument" 


"Bad result" }; 
只 


void fun_error(size t errnum) 


{ 
switch(errnum) 
{ 
case ERR CMPUTING /*ERR COMPUTING*/: 
fprintf(stderr, ™..."); 
break; 
case ERR_ INVARG /*ERR INVALIDARG*/: 
forintf(Cstdernr mm. 0) 
break; 
default 
} 
return， 
} 


如 此 做 的 好 处 便 是 ， 不 再 需要 去 安排 数组 的 个 数 ， 而 是 直接 在 代码 中 展 
示 。 并 且 可 以 加 上 一 些 预 处 理 ， 来 实现 开关 错误 显示 。 


o 开关 错误 


Ve FV 


void fun_error(size t errnum) 


{ 
#if !defined(NOT_DEBUG) 


switch(errnum) 


{ 


} 
#endif 


return,; 


O 惯 重 使 用 


@ 在 我 设计 程序 的 过 程 中 ， 尽 量 让 错误 提示 减少 ， 或 者 说 用 户 不 应 该 接 
触 到 错误 以 及 处 理 错误 ， 所 以 当 一 个 程序 没有 必要 提供 给 用 户 错误 信 
息 的 时 候 ， 才 是 站 正 的 完整 程序 ， 至 于 程序 失败 那 又 是 量 一 种 境况 ， 
例如 备份 程序 可 能 由 于 文件 的 属性 ， 而 复制 失败 ， 这 是 不 可 避免 的 ， 
此 时 将 失败 信息 写 入 文档 ， 呈 现 给 用 户 即 可 。 


0x0C- 开 始 行动 


写 在 最 前 方 


。 对 于 线程 的 概念 以 及 意义 ， 我 说 一 些 


oO 


现在 我 只 说 ， 一 个 多 线程 的 技术 对 于 C 语 言 程序 而 言 就 像 ， 原 本 只 有 你 一 
个 人 在 干 活 ， 现 在 突然 有 许多 人 愿意 追随 你 ， 以 你 为 核心 的 多 人 合 
作 模 式 ， 共 同 完 成 同一 个 任务 。 

导致 的 结果 就 是 ， 这 个 任务 被 切 分 成 多 个 模块 ， 有 可 能 很 多 人 一 起 做 同一 
个 模块 ， 有 可 能 某 些 模块 只 有 一 个 人 在 做 ， 这 就 带 来 了 什么 问题 呢 ? 
"我 " 对 这 个 任务 的 掌控 力度 变 低 了 ， 试 想 本 来 就 是 我 一 个 人 在 开发 这 个 程 
序 ， 程 序 分 都 是 我 一 个 字符 一 个 字符 敲 上 去 的 ， 自 然 了 解 程序 的 每 
个 部 分 。 但 是 现在 ， 突 然 多 了 一 些 人 来 和 你 一 起 完成 这 个 任务 ， 必 然 导 致 
有 一 部 分 程序 代码 不 是 由 你 亲自 写 下 去 的 ， 虽 然 你 指示 他 们 怎么 做 ， 做 出 
十 么 样 凶 


但 是 毕竟 不 是 你 亲自 写 的 ， 所 以 他 们 在 协调 工作 的 时 候 ， 很 大 可 能 性 会 出 
现 问 题 ， 这 个 问题 在 多 线程 变 成 里 面 就 是 资源 争夺 问题 ， 也 就 是 同一 个 内 
存 块 ， 在 同一 时 刻 被 多 于 一 个 的 线程 访问 ， 那 么 该 如 何 处 理 呢 ? 

C 语 言 到 现在 已 经 支持 多 线程 (然而 零 零 散 散 的， 虽然 C11 标 准 支持 多 线程 
库 ) 了 ， 并 没有 办 法 实际 用 在 编程 里 ， 我 一 般 使 用 各 平台 的 API 或 者 Glib 
进行 多 线程 编程 ， 前 者 是 不 需要 配置 环境 直接 上 手 ， 缺 点 就 是 无 法 跨 平 台 
(万 恶 的 Windows)。 后 者 则 是 需要 配置 环境 ， 且 这 个 库 说 实话 的 确 很 腾 

肿 ， 对 于 我 们 即将 写 的 这 个 备份 程序 有 些 杀 鸡 用 牛刀 。 


e@ 好 吧 ， 如 果 硬 要 说 的 官方 一 点 那 就 是 : 


应 用 程序 ， 进 程 ， 线 程 的 区 别 : 

应 用 程序 是 一 组 数据 和 指令 。 

多 进程 就 相当 于 启动 了 多 个 应 用 程序 0 

进程 ; ee 运行 起 来 的 名 称 ， 两 者 的 区 别 在 于 进程 是 有 状态 的 ， 即 
线程 和 进程 十 分 相似 ， 都 有 状态 ， 是 
可 以 十 分 轻易 的 共享 数据 ， 而 这 点 是 多 
销 极 大 )。 

状态 指 的 就 是 程序 运行 起 来 产生 的 一 些 值 ， 因 为 是 运行 后 产生 的 所 以 形象 
的 叫 他 们 状态 ， 例 如 寄存 器 里 的 值 ， 栈 (而 不 是 堆 ， 线 程 并 没有 自己 的 堆 ) 
的 值 


Le] 


它 的 状态 比 进程 少 ， 并 且 线程 之 间 
进程 无 法 比拟 的 (进程 间 共 享 数据 开 


。 看 完 上 面 的 解释 ， 就 准备 开始 着 手写 程序 了 


写 在 中 间 


e。 首先 我 使 用 的 是 Visual Studio 2013 作 为 编译 器 
e。 创建 Win32 控 制 台 应 用 程序 

e@ 记得 创建 C 源 文件 

@ 如 果 不 小 心 点 成 C++ 也 没事 ， 改 成 .C 就 行 。 


e@ 创建 一 个 入 口 源 文件 Entery.c ， 用 于 放置 main 敬 数 


#include <stdio.h> 
#include <stdlib.h> 


int main(int argc, char* argv[]) 


{ 
system("pause"); /* 0 命令 对 大 小 写 不 敏 
感 ， 所 以 命令 无 所 谓 大 小 写 , 从 环境 变量 的 配置 就 能 知道 这 一 
return 0O; 
} 
因为 等 一 下 需要 构造 一 个 字符 显示 界面 模拟 GUI 的 功能 ， 故 添加 `#include <st 
dlib.h>. 


当然 并 不 是 只 因为 这 个 原因 。 但 是 现在 是 为 了 使 用 其 中 的 `system( ) ` 函 数 调用 
系 统 命令 o 


e@ 好 ， 那 么 接 下 来 .. 
e@ 等 一 下 ， 要 直接 写 程 序 了 吗 ? 程序 功能 呢 ?程序 结构 呢 ? 从 哪里 开始 写 呢 ? 


o 这 些 都 没有 考虑 啊 1 | 
e。 所 以 ， 停 下 来 我 们 好 好 构思 构思 ! 


o 问题 : 
1. 我 们 要 做 什么 ? : 一 个 多 线程 的 备份 程序 
2. 我 们 要 怎么 做 ? : 这 个 问题 有 点 大 ， 应 该 拆 开 
3. 我 们 从 哪里 开始 做 ? : 这 个 问题 比较 好 回答 。 
o 回答 : 


1. 略 


2. 我 们 要 实现 把 某 个 路 径 备 份 到 某 个 特定 路 径 
四 首先 要 实现 路 径 的 设置 ， 也 就 是 说 由 键盘 输入 路 径 
四 得 到 了 路 径 之 后 ， 要 得 到 该 路 径 下 所 有 文件 夹 和 文件 的 信息 (在 
*nix 下 这 俩 玩意 儿 都 是 一 个 东西 ) 
@ 行 了 就 这 么 简单 
3. 先 从 输出 所 有 文件 和 文件 夹 的 结构 开始 


o 问题 : 


1. 怎么 得 到 文件 和 文件 夹 的 信息 ? 


O 〇 
怠 
Da 


1. MSDN 放 在 网 上 ， 虽 然 现在 不 提供 离线 版 本 了 ， 但 是 也 没有 被 墙 啊 。 
所 以 不 懂 的 时 候 就 一 个 字 ， 查 API 文 档 | 对 于 十 分 基本 的 AP1 
MSDN 其 至 会 给 出 示例 代码 。 恰 好 ， 这 就 是 一 个 。 

e@ 题 外 话 


o 其 实 会 写 这 个 程序 没什么 大 不 了 ， 重 要 的 是 学 习 能 力 ， 一 个 自我 学 习 的 能 
力 ， 就 比如 当 我 不 知道 一 个 东西 ， 也 无 从 下 手 的 情况 下 ， 我 应 该 进行 联 
想 ， 联 想 可 能 与 他 相关 的 各 种 方面 ， 并 且 亲 自 去 查 ， 不 厌 其 烦 的 查 ， 遍 地 
撤 网 ， 重 点 捞 和 鱼 。 
e。 首先 我 们 需要 实现 一 个 功能 ， 就 是 遍历 输出 路 径 下 的 所 有 文件 夹 和 文件 


。 在 这 之 前 ， 我 们 先 设 计 一 下 界面 ， 稍 后 ... 3，2，1 ， 出 现 ! 


while(1) 
{ 
system("cls"); /* 系统 的 清 屏 命令 */ 
dof{ 
ButS@G 
3 "); 
PUES(G OS 
3 "); 


puts("That is a System Back Up Software for Window 


puts("List of the Software function : "); 
puts("1. Back Up "); 

puts("2. Set Back Up TO-PATH "); 

puts("3. Read Me "); 

puts("4. Exit "); 


puts("Your Select: "); 
fscanf(stdin, "%d", &select); 
getchar(); /* 读 取 上 方 fscanf 留 在 流 里 面 的 换行 符 '\n' * 


}while ((select < 1) || (select > 4)); /* 如 果 选 择 无 
效 */ 
system("cls"); 


switch(select) 

{ 

case 1 : 

break; 
case 2 
break; 
Case 3 : 
break 
case 4 : 
exit(0); /* 退出 程序 */ 
default 
break; 

}/** switch(select) **/ 
A wllel( 
system("pause"); 
return 0， 


突然 出 现 的 这 一 段 代码 就 是 设计 的 界面 ， 其 实 很 简单 ， 看 看 就 懂 了 “， 不 再 多 


说 。 
英文 英 怪 。 


紧 接着 ， 我 们 来 实现 第 一 个 功能 ， 显 示 结 构 ， 让 我 们 吧 这 个 功能 函数 叫 


做 show_structure 


o 新 建 头 文件 showFiles .h 


/* 头 文件 包 庄 一定 要 切记 */ 

#ifndef INCLUDE SHOWFILES H 

#define INCLUDE SHOWFILES H 

/* 代码 写 在 里 面 ， 这 样 就 不 会 发 生 重 定义 ， 也 能 节省 资源 */ 
#endif 


o 新 建 源 文件 showFiles.c 


oO 


- 记得 包含 头 文件 `#include <showFiles.h>、 


全 
a 

2 
油 
这 


showFiles.h 稍 后 进 


#include <stdio.h> 

#include <stdlib.h> 

#include <Windows.h> /* Windows API */ 
#include <string.h> /* 字符 串 郊 数 */ 
#include <tchar.h> 2 felmtt 
#include <setjmp.h> /* setjmp, longjmp */ 


#define TRY_TIMES 3 /* 重新 尝试 获取 的 最 大 次 数 */ 
#define MIN_PATH_NAME _MAX_PATH /* 最 小 的 限制 */ 


#define LARGEST_PATH_NAME 32767 /* 路 径 的 最 大 限制 */ 


/* 我 们 需要 在 这 里 面包 含 函 数 的 声明 */ 


/xx 加 上 文档 注释 ， 不 太 喜 欢 死板 的 硬 套 ， 选 择 自己 觉得 重要 的 信息 记录 


吧 
* @Qversion 1.0 2015/09/28 
* Qauthor wushengxin 
* @param ”from dir_name 源 目 录 ， 即 用 于 扫描 的 目录 


depth 递归 的 深度 ， 用 于 在 屏幕 上 格式 化 输出 


， 每 次 增加 4 
* @function 用 于 输出 显示 目录 结构 的 ， 可 以 改变 输出 流 
SH 


void Show_structure(const char * from dir_name, int dep 


th ) ， 


题 外 话 ， 在 Visual Studio 中 ， 会 强制 要 求 你 使 用 他 们 编写 的 安全 函数 , 例 
如 fscanf_s ， 如 果 你 不 想 用 的 话 ， 那 就 将 它 关 闭 吧 ， 具 体 怎么 操作 ， 就 


当 是 一 个 小 问题 留 给 你 自 己 


o showFiles.c 先 不 写 太 多 ， 这 里 比较 重要 的 是 写法 


/* 首先 是 需要 的 一 系列 变量 */ 

int times = 0; /* 用 来 配合 setjmp 和 ]ongjmp 重 新 获取 句柄 HAND 
LE 的 */ 

/** 操作 时 获取 文件 夹 ， 文 件 信 息 的 的 必要 变量 **/ 

HANDLE file handle; 

WIN32_FIND_ DATAA file data; 

LARGE_INTEGER file size; 


file_handle :文件 的 句柄 ， 后 期 操作 的 主要 对 答 

file_data :文件 的 信息 ， 各 种 属性 

file_size :文件 的 大 小 有 可 能 非常 大 ， 需 要 使 用 特定 的 结构 体 保存 
。 到 这 里 我 们 停 下 来 ， 因 为 下 一 步 我 们 要 去 实现 获取 路 径 的 操作 。 


o 问题 : 
1. 我 们 要 怎么 样 获取 路 径 
2. 我 们 获取 到 的 路 径 要 怎么 存储 
3. 存储 的 路 径 要 符合 什么 格式 
o 回答 : 
1. 有 两 个 路 径 : 备份 的 来 源 路 径 ， 备 份 的 目的 路 径 。 前 者 用 键盘 输入 ， 
后 者 在 程序 内 部 首先 指定 一 个 。 
2. 这 里 有 两 种 方案 : 用 系统 栈 存 ， 用 堆 存 
前 者 是 方便 的 内 存 管 理 ， 完 全 不 用 程序 员 操 心 ， 但 是 栈 的 大 小 比 
较 小 ， 一 般 只 有 几 兆 而 已 ， 这 也 是 为 什么 递归 容易 爆 栈 的 原因 。 
速度 较 快 
四 后 者 是 近似 巨大 的 内 存 上 限 ， 对 于 32 位 系统 的 Windows 应 用 程 
序 而 言 ， 可 以 有 2~3GB 的 分 配 空间 (4GT 机 制 )，64 位 就 更 为 可 
怕 了 (Windows8 最 大 有 512GB , Windows7 最 大 有 192GB ， 
服务 器 系列 大 概 是 1~2TB )。 速 度 较 慢 
@ 不 熟练 的 程序 员 应 该 尽 可 能 选择 前 者 。 


@ 这 里 采用 后 者 ， 前 者 的 代码 也 会 一 并 附 上 。 
3. 对 于 微软 API 处 理 自己 的 Windows 路 径 ， 一 般 要 求 末 尾 以 / 或 
者 \ 结尾 ， 前 者 在 C 语 言 中 不 是 转 义 ， 所 以 比较 好 存储 ， 如 果 需 要 使 
用 后 者 ， 可 以 选择 如 此 \N 就 行 了 。 


char dir_path_1[PATH_MAX] = "../"; 
char dir_path_2[PATH_MAX] = "..\\",; 
/* 两 种 效果 一 致 ， 且 占 的 空间 也 相同 */ 


o 汪 意 

四 这 里 有 涉及 到 一 个 问题 ， 那 就 是 Windows 下 的 路 径 限制 ， 
在 windef.h 中 定义 了 一 个 常量 PATH_MAX 的 值 为 260， 也 就 是 说 最 
大 的 路 径 长 路 为 260 字 节 ， 但 是 如 果 我 们 的 路 径 名 超过 了 这 个 长 度 

所 么 办 呢 ? 

了 起 六 出 了 解决 办 法 ， 就 是 添加 前 级 \\?\、, 这 样 长 度 限制 就 增 
加 到 了 32767 了 

此 处 不 予以 实现 ,日 后 遇见 情况 的 话 可 以 当 作 一 个 解决 的 办 法 。 

@ 解决 了 上 一 个 关于 路 径 的 问题 ， 我 们 就 需要 考虑 一 下 如 何 设 计 实 现 这 个 功能 ， 
首先 要 达到 模块 化 的 目的 ， 即 尽量 减少 每 个 函数 的 功能 。 


o 问题 
m 都 需要 什么 功能 ? 
o 回答 
a 一 个 主要 的 函数 用 来 递归 (也 可 以 用 人 循环， 循环 的 好 处 就 也 在 于 不 容易 
爆 栈 ) 


四 一 个 用 来 专门 给 路 径 分 配 空间 的 函数 

@ 一 个 用 来 释放 分 配 空间 的 元 数 

@ 一 个 对 输入 的 路 径 进 行 处 理 的 函数 ， 让 路 径 变 得 规范 
e showFiles.h 变 个 魔术 3，2，1 ， 添 加 了 如 下 代码 


Whe 
* @version 1.0 2015/09/28 
* Qauthor wushengxin 
* @param ”src 外 部 传 进来 的 ， 用 于 向 所 分 配 空间 中 填充 的 路 径 
* @function 用 于 在 堆 上 为 存储 的 路 径 分 配 空间 。 
EA 
char * make path(const char * src); 


/* 

* @version 1.0 2015/09/28 

* Qauthor wushengxin 

* @param ”src 外 部 传 进来 的 ， 是 由 make_path 所 分 配 的 空间 ， 
将 其 释放 

* @function 用 于 释放 make_path 分 配 的 内 存 空 间 

2 

void rele path(char * src); 


/* 
* @version 1.0 2015/09/28 
* Qauthor wushengxin 
* @param ”src_path 用 于 FindFirstFile() 
src_file 用 于 添加 找到 的 目录 名 ， 形 成 新 的 目录 路 径 
* @function 用 于 调整 用 户 从 键盘 输入 的 路 径 字 符 串 ， 使 他 们 变 得 一 臻 
， 便于 处 理 
2 
void adjust path(char * restrict src path, char * __ 
restrict src file); 


/* 
* @version 1.0 2015/09/28 
* Qauthor wushengxin 
* @param ”src 外 部 传 入 的 ， 用 于 调整 
* @function 用 于 替换 路 径 中 的 / 为 、 的 
WA 

void repl str(char * src); 


具体 功能 在 文档 里 已 经 写 的 很 清楚 了 ， 唯 一 要 解释 的 就 是 最 后 两 个 函数 ， 本 来 
是 一 体 的， 后 来 被 我 拆 开 成 了 两 个 函数 ， 为 了 也 是 功能 更 加 清晰 


倒数 第 二 个 函数 adjust_path 的 作用 是 将 路 径 处 理 成 符合 Windows 函数 


FindFirstFile 的 要 求 .aspx) 可 以 具体 看 看 。 


e showFiles.c 继续 show structure 的 实现 


o shows tructure 


和 


size t length = strlen(from dir_name); 
char * dir_buf = make_path(from dir_name); // 路 径 
char * dir file buf = make path(from dir name); // 


if (dir_buf == NULL || dir_file buf == NULL) 
return; /* 如 果 分 配 失败 就 结束 函数 */ 
adjust_path(dir buf，dir file buf); /* 调整 路 径 和 文件 


格式 到 标准 格式 */ 


repl_ str(dir_buf); 
repl_ str(dir file_ buf); 


这 是 调用 WINDOWS API 之 前 的 所 有 操作 ， 来 一 一 实现 他 们 


首先 是 


分 配 空间 给 路 径 


o make_path : 24 lines : 


对 于 这 


个 函数 的 功能 便 是 ， 为 需要 存储 的 路 径 分 配 空间 。 


int times = 0; 


size _t len_of_src = strlen(src); /* 需要 分 配 的 长 


沽 , 


Eh 
size t len of dst = MIN_ PATH_NAME; 


If (len of src > MIN_ PATH_ NAME - 10) /* \\?\// 
* 8 个 字符 */ 
{ /* 这 里 用 了 10 这 个 神奇 的 垃圾 数 ， 所 以 必须 做 一 点 注释 ， 
以 防 忘 记 */ 
len of_dst = LARGEST_ PATH_NAME; 
If (len of_src > LARGEST_PATH_ NAME - 10) 
{ 
fprintf(stderr, "The Path Name is large 
r than 32767, Which is not Support!\n%s", src); 
return NULL ， 


} 
setjmp(alloc jmp); /* alloc_ jmp to here */ 
char * loc_ buf = malloc(len of dst + 1); 
if (loc_buf == NULL) 
{ 
fprintf(stderr, "ERROR OCCUR When malloc th 
e memory at %s\n Try the %d th times", __LINE , times+1) 
if (times++ < TRY_TIMES) 
longjmp(alloc_jmp, 0); /* alloc_ jmp fro 
m here */ 
return NULL ， 
} 
//sprintf(loc_buf,，"\N\\\?\\%s"，src); /* 作为 日 
后 的 扩展 */ 
strcpy(loc_buf, src); 
return loc_buf; 


对 于 10 这 个 数 的 考虑 是 ， 至 少 留 出 8 个 空位 给 所 说 的 字符 ， 加 2 
凑 整 。 


O 


对 于 元 数 malloc ， 在 这 里 没有 进行 包 庄 ， 是 因为 这 只 是 一 
能 ， 后 期 在 实现 备份 的 时 候 ， 会 对 它 进 行 
藏 ， 让 函数 功能 更 加 清晰 。 


adjust_path : 16 lines 


其 次 是 调整 路 径 的 函数 ， 功 能 就 是 调整 路 径 


个 预 热 的 功 


包装 ， 也 使 得 错误 处 理 的 代码 隐 


size_t length = strlen(src_path); /* 两 个 参数 的 长 度 在 此 函 


数 调用 之 前 必定 一 致 */ 


if (length == 1) /* 处 理 情况 为 ， 当 用 户 输 入 的 是 根 目录 的 情况 例 


ZC 
{ 
strcat(srce file, ™:/"); 


} 


else if (src path[length - 1] != '\\' && src_ path[lengt 


站 本 生 二 和 
{ 


strcat(src file, "/"); 


} 


else 


{ 
src_path[length - 1] = '/'; 


} 
strcpy(src_path, src_file); 


strcat(src_ path, "/*"); 
return,; 


当 用 户 输入 的 是 一 个 字符 的 根 目 录 ， 我 们 要 将 其 处 理 为 C:/ 
当 用 户 输入 的 是 不 带 / 结尾 的 ， 我 们 需要 将 其 添加 上 / 


当 用 户 输入 以 \ 结尾 的 路 径 时 ， 将 其 替换 为 / ,虽然 后 方 
\ 


将 目录 处 理 为 带 /* 结尾 的 ， 以 达到 API 的 要 来 


src_file 用 于 将 目录 下 的 子 目录 名 连接 。 生 成 新 的 目录 。 
用 于 递交 给 API 扫描 目录 下 的 所 有 文件 和 文件 夹 。 


repl str : 7 lines 


这 样 的 形式 


全 部 换 成 了 


Src_path 


size_t length = strlen(src); 
for (size t i = 0; i <= length; ++i) 


{ 
hf (CS el = 
Smo NN 
} 
return,; 


不 再 瘟 述 这 个 函数 的 功能 


到 此 处 ， 所 有 在 第 一 个 Windows API 之 前 调用 的 函数 都 实现 了 ， 接 下 来 
要 做 什么 ? 


e 当然 是 调用 API 函 数 虽 


o Show_structure 


/* 开始 调用 Windows API 获取 路 径 下 的 文件 和 文件 夹 信 息 */ 

setjmp(get_hd_jmp); 

fileHandle = FindFirstFileA(dir_ buf, &fileData); 

if (fileHandle == INVALID_HANDLE_VALUE) /* 如 果 无 法 获取 句 
柄 超过 上 限 次 数 ， 就 退出 */ 


{ 
fprintf(stderr, "The Handle getting Failure! \n"); 
if (times++ < TRY_TIMES) 
longjmp(get_hd_jmp, 0); 
return， 
} 


对 于 这 一 段 代码 的 解释 ， 其 实 核心 就 是 第 二 名 代码 ， 其 中 的 函数 
FindFirstFileA 需要 解释 一 下 。 


在 Windows API 文档 MSDN 中 介绍 的 是 FindFirstFile ， 但 是 某 些 
情况 下 (定义 了 UNICODE 宏 ， 不 知道 有 没有 记 错 )， 这 个 官方 提供 的 接口 会 

被 定义 ( #define ) 成 FindFirstFilew ， 如 果 使 用 char * 的 ANSI 
字符 串 当 成 参数 的 话 是 会 获取 句柄 失败 的 ! 并 且 另 一 个 参数 使 用 的 
file _ data 类 型 也 是 ANSI 的 WIN32_FIND_DATAA 


所 以 这 里 显 式 地 选择 调用 FindFirstFileA 而 不 是 让 Windows 帮 有 我 们 


选择 。 


ee ， 遍历 这 个 目录 下 的 所 有 文件 和 文件 夹 ， 提 取 
出 来 他 们 的 信息 : 


dof{ 
char * tmp_dir _ file buf = make_path(dir _ file buf); 
If (fileData.dwFileAttributes & FILE_ATTRIBUTE_DIRE 
CTORY) 
{ /* 如 果 是 文件 夹 */ 
fprintf(stderr, "%*s%s\t<DIR>\t\n", depth, "", 
fileData.cFileName); 


if (strcmp(fileData.cFileName, ".") == 0 || /* 
， 和 .， 便 是 当前 文件 夹 和 上 一 级 文件 夹 ， 世界 上 所 有 系统 都 一 样 */ 
strcmp(fileData.cFileName, "..") == 0) 
continue; 


strcat(tmp_dir_file buf, fileData.cFileName); / 
* 将 文件 名 连接 到 当前 文件 夹 路 径 之 后 ， 形 成 文件 路 径 */ 
show_ structure(tmp_dir_file buf, depth + 4); 
} 
else 
{ 
fileSize.LowPart = fileData.nFileSizeLow; As 
输出 大 小 */ 
fileSize.HighPart = fileData.nFileSizeHigh,; 
fprintf(stderr, "%*s%s \t%ld bytes\t\n", dep 
th, "", fileData.cFileName, 
fileSize.QuadPart) 


} 
rele_path(tmp_dir_file buf); /* 这 个 的 实现 稍 后 放出 */ 
} while (FindNextFileA(fileHandle, &fileData)); 


代码 是 仿照 MSDN 提供 的 官方 例子 .aspXx) 改 写 的 。 


其 中 第 五 名 代码 ， 用 到 了 前 方 提 到 过 J 用 的 技巧 ， 
占 人 位， 忘记 的 可 以 回去 看 看 在 第 


采用 的 方法 是 递归 ， 循 环 的 方法 留 给 看 者 自己 实现 ， 思 路 很 简单 ， 用 一 个 
队列 或 者 栈 存 放 所 有 找到 的 目录 和 文件 ， 依 次 取出 直到 栈 或 者 队列 为 空 。 


以 及 最 后 一 段 的 代码 ， 用 于 收尾 : 


FindClose(fileHandle); 
rele_path(dir buf) ， 

rele path(dir_file_ buf) ， 
return， 


o rele path : 4 lines 


free(src); 
src = NULL; 
return， 


。 最 后 在 Entry.c 的 main 鸥 数 中 ， 在 switch 的 case 1 标签 范围 
内 ， 加 上 一 些 获取 和 处 理 输入 的 函数 : (因为 这 里 只 会 使 用 一 次 ， 故 采用 的 是 系 
统 栈 而 不 是 在 堆 上 分 配 ) 


char tmp[_MAX_PATH]; 


case 1 : 
scanf("%s", tmp); 
printf("Enter : %s\n", tmp); 
getchar(); /* 前 方 提 到 过 ， 作 用 是 清理 标准 输入 流 */ 
Show_structure(tmp，0)， 
system("pause"); 
break; 


现在 编译 运行 


e 成 功 了 1 对 自己 的 代码 很 有 信心 ， 嘿 1 

。 中 文 路 径 也 是 可 以 的 ， 别 怕 

e。 对 于 超过 260 字符 的 路 径 没 有 测试 ， 大 概 能 猜 到 是 不 行 的 。 但 是 解决 方案 上 
方 也 有 提 到 。 

@ 这 就 是 预 热 的 函数 ， 比 较 详 细 ， 后 方 代码 就 不 会 如 此 资 述 ， 而 是 更 加 简洁 干练 


的 上 代码 和 解释 


写 在 最 后 面 


@ 总 结 一 个 词 ， 代 码 横 陈 ， 但 是 逻辑 还 算 清 晰 

e@ 只 是 一 个 预 热 的 作用 ， 正 片 代 码 只 是 为 了 提前 让 思路 更 加 清晰 ， 且 能 测试 出 
Windows API 的 某 些 潜在 缺陷 以 及 要 求 。 

e@ 下 面 将 开始 点 正 的 进入 功能 的 编写 


0x0D- 单 线程 备份 (上 ) 


e。 源 路 径 : 即 From-Path， 你 准备 要 备份 的 资料 

e 目的 路 径 : 即 To-Path， 你 准备 要 存储 备份 的 资料 的 地 方 

e 稍微 回想 一 下 ， 上 一 次 写 的 代码 ， 本 次 的 任务 是 遍历 目录 及 其 子 目录 ， 那 么 这 
回 要 干 的 就 是 将 上 次 遍历 过 的 数据 ， 挪 一 下 窝 ， 到 我 们 想 要 他 们 去 的 位 置 。 

@ 这 涉及 到 两 个 操作 ， 人 遍历 和 拷贝， 前 一 个 动作 我 们 在 上 一 回 已 经 实现 了 ， 只 
需 做 小 小 的 改动 ， 就 能 够 使 用 。 后 一 个 动作 也 是 需要 人 先 Windows API 来 完 
成 ， 至 于 哪些 ， 稍 后 再 提 。 

e@ 现在 先 让 我 们 完成 一 个 魔法 ， 3，2，11! 


dof{ 
puts(------ 
0 
fprintf(stdout, "The Default Path is : %s \n", DEFAULT 
_TO_PATH); 
fprintf(stdout, "Now The Path is : %s \n", get_bac 
kup_topath( )); 
puts(------ 
2 
puts("That is a System Back Up Software for Windows! 
并 
puts("List of the Software function : "); 
puts("1. Back Up "); 
puts("2. Set Back Up TO-PATH "); 
puts("3. Show TO-PATH History"); 
puts("4. Read Me "); 
Buntsi( eS EXLE 下 
puts(------ 
SS 


对 界面 稍微 有 了 一 些 改 动 。 
新 增 了 第 三 行 和 第 四 行 的 系统 默认 目的 路 径 和 当前 使 用 的 目的 路 径 。 


新 增 了 倒数 第 四 行 的 查看 目的 路 径 历 史 纪 录 的 功能 。 


在 main 函数 外 头 需 要 extern DEFAULT_TO_PATH; 因为 引用 
了 setPath.c 里 的 一 个 全 局 变量 。 


写 在 中 间 

。 前 一 次 我 们 曾经 提 到 要 让 函数 的 功能 更 加 清晰 ， 为 了 达到 这 个 目的 ， 应 该 把 可 
能 用 到 的 一 些 原生 库 函 数 包 衰 一 下 ， 让 可 能 发 生 的 错误 尽量 掌握 在 我 们 自己 的 
里 


< 时 


e。 安全 函数 


o 新 建 safeFunc.h safeFunc.c 
o 考虑 一 下 我 们 需要 包 庄 的 函数 : malloc ， free ， fopen 三 个 库 函 
数 。 


四 为 了 不 让 后 方 的 多 线程 实现 产生 更 多 的 以 后 ， 不 单独 使 用 全 局 错误 输 
出 。 

四 让 我 来 将 他 们 实现 一 下 

en ee ek 例如 注释 ， 而 是 完整 的 呈现 出 
来 ， 如 果 觉 得 篇 幅 过 长 ， 可 以 选择 跳跃 的 阅读 。 

@ 魔法 来 了 ,， 3， 2, 1! 


#include <stdio.h> /* size t */ 
#include <stdlib.h> 
#include <setjmp.h> 
#define TRY_TIMES 3 


typedef struct _input_parat{ 
char * file; /* 待 打开 或 创建 的 文件 名 */ 
char * mode; /* 打开 的 模式 */ 
}params; 


Jmp_buf malc_jmp; /*Malloc_s*/ 
jmp_buf fopn_jmp; /*Fopen*/ 


J 

* @Qversion 1.0 2015/10/01 
* Qauthor wushengixin 

* @param  ”..,， 参看 结构 体 说 明 


可 传 入 任意 的 个 数 的 ， 形 式 为 .file = "xxx", 
mode = "x" 的 参数 
* function 用 于 使 用 默认 参数 ， 并 调用 函数 Fopen 进行 打开 操 
作 
区 
#define Fopen_s(...) Fopen((params){.file = NULL, 
mode = "r", VA_ARGS }) 
FILE* Fopen(const params file open); 





人 
* @Qversion 1.0 2015/10/01 
* Qauthor wushengxin 
* param sizes 输入 需要 分 配 的 大 小 
* function 用 于 隐藏 一 些 对 错误 的 处 理 ， 并 调用 malloc 库 函数 
分 配 空间 
7 
void * Malloc s(size t sizes); 


/xx 

* @Qversion 1.0 2015/10/01 

* Qauthor wushengxin 

* @param ”input 外 部 传 入 的 等 待 释放 的 指针 

* function 用 于 隐藏 一 些 对 错误 的 处 理 ， 并 调用 free 库 函数 进 行 
释放 指针 

A 

void Free_s(void * input); 


里 面 用 到 了 一 些 新 的 特性 ， 如 果 使 用 GCC/Clang 作为 编译 器 的 ， 记 
得 要 开启 -std=c11 支持 。 


这 几 个 函数 就 不 再 详细 解释 ， 而 是 简略 说 几 个 ， 接 下 来 放 上 实现 代 
码 : 


FILE* Fopen(const params file_ open) 
{ 

int times = 0; 

FILE* ret _p = NULL; 

if (file open.file == NULL) 

{ 


fputs("The File Name is EMPTY! Comfirm it a 
nd Try Again", stderr); 
return ret_p; 
} 
setjmp(fopn_jmp); /* fopn_jmp To there */ 
ret_p = fopen(file open.file, file _ open.mode); 
if (ret_p == NULL) 
{ 
if (times++ < TRY_TIMES) 
longjmp(fopn_jmp, 0); /* fopn_jmp From here 
人 
fprintf(stderr, "The File : %s Open with Mo 
de (%s) Fail!i\n", file open.file, file open.mode); 
} 


return ret_p; 


void * Malloc_s(size t sizes) 
{ 
int times = 0; 
void * ret_p = NULL; 
if (sizes == 0) 
return NULL ， 
setjmp(malc_jmp); /* malc_jmp To There */ 
ret_p = malloc(sizes); 
if (ret_p == NULL) 
{ 
If (times++ < TRY_TIMES) /* malc_jmp From H 
enme. / 
longjmp(malc_jmp, 0); 
fputs("Allocate Memory Fail!", stderr); 
} 


return ret_p; 


void Free_ s(void * input) 
{ 
if (input == NULL) 
{ 
#if !defined(NOT_DEBUG AT_ALL) 


fputs("Sent A NULL pointer to the Free_s Fu 
nction!"， stderr); 
#endif 
return， 
} 
free(input); 
input = NULL; 


一 个 函数 是 用 外 部 定义 的 宏 Fopen_s 启动 它 ， 这 里 没有 实现 隐藏 


G 


最 后 一 个 函数 中 使 用 了 预 处 理 的 机 制 ， 如 果 在 头 文件 中 定义 了 
#define NOT_DEBUG_AT_ALL ， 这 个 输出 将 不 在 出 现 


全 函数 已 经 撰写 完成 ， 接 下 来 就 是 干 正事 了 


O 〇 


SetPath .h 


@ 我 们 首先 要 将 程序 里 保存 上 默认 的 目的 路 径 ， 首 先 想到 用 
量 #define ... 

四 其 次 应 该 要 确保 当前 目的 路 径 不 被 其 他 非法 的 渠道 访问 ， 那 就 应 该 用 
一 个 static 字符 数组 存储 。 

@ 接 下 来 就 是 要 提供 一 个 函数 当 作 接口 (这 里 用 了 接口 这 个 术语 不 知道 合 
不 合适 )， 来 获取 当前 实际 在 使 用 的 目的 路 径 
get_backup_topath “。 

四 这 里 还 需要 将 之 前 实现 过 的 repl str ， 再 次 实现 一 次 ， 因 为 之 前 
的 显示 功能 只 是 测试 ， 并 不 会 实际 应 用 到 程序 当中 。 

和 完成 这 两 个 功能 函数 以 后 ， 再 去 考虑 实现 怎么 样 设 置 路 径 ， 存 储 路 
径 ， 以 及 使 用 文件 流 操作 来 缓存 历史 目的 路 径 


#include "safeFunc.h" 


#define SELF_LOAD_DEFAULT_PATH "C:/" 
#define MIN_PATH_NAME _MAX_PATH /* 最 小 的 限制 */ 
#define LARGEST_PATH_NAME 32767 /* 路 径 的 最 大 限制 */ 


J 
* @Qversion 1.0 2015/10/02 
* Qauthor wushengxin 
* @function 用 于 返回 当前 使 用 的 目的 路 径 
2h 
const char * get_backup_topath( ) ， 


/** 
* @version 1.0 2015/09/28 

* Qauthor wushengxin 

* @param ”src 外 部 传 入 的 ， 用 于 调整 

* @function 用 于 替换 路 径 中 的 / 为 的 
WH 

void repl str(char * src); 


对 应 的 实现 中 ， 会 定义 一 个 静态 的 字符 数组 ， 且 在 头 文 件 中 能 够 看 
见 ， 很 多 是 在 showFiles 里 定义 过 的 。 


定义 过 的 函数 ， 例 如 repl_ str 需要 把 showFiles.c 中 的 实现 ， 
使 用 #if 9 .,.. #endif 进行 注释 掉 ， 不 然 会 发 生 重 定义 的 错误 。 


@@ SetPath.c 


#include "setPath.h" 


static char to _ path_ buf[LARGEST_ PATH_NAME] = SELF _L 
OAD_DEFAULT_PATH ， 

const char * DEFAULT_TO_PATH = SELF_LOAD_DEFAULT_PA 
TH ， 

const int LARGEST_ PATH = LARGEST_ PATH_NAME,; 


const char * get_ backup_topath() 


{ 
return to_path_buf， 


void rep]l_str(char * src) 


{ 
size_t length = strlen(src); 
for (size t i = 0; i <= Jength; ++i) 
{ 
if (src[i] == '/') 
SC = 
} 
return,; 
} 


有 了 上 面 的 代码 ， 主 界面 就 再 次 能 够 无 误 运 行 了 ， 那 么 剩 下 的 就 是 实 
现 ， 设 置 目 的 路 径 ， 存 储 目 的 路 径 到 本 地 ， 显 示 目 的 路 径 ， 分 别 对 应 
主 界面 的 2，3 。 


怎么 实现 比较 好 ， 再 开始 之 前 ， 分 析 一 下 会 遇 到 的 情况 : 
四 我 们 在 得 到 目的 路 径 之 后 ， 会 将 其 拷贝 给 默认 路 径 
to_path_buf ， 并 且 将 其 存储 到 本 地 缓存 文件 中 ， 以 便 下 次 程 
序 开始 时 可 以 直接 使 用 上 一 次 的 路 径 
四 还 可 以 使 用 另 一 个 文件 存储 所 有 用 过 的 历史 路 径 ， 包含 时 间 信 
息 。 
那么 这 就 要 求 我 们 首先 实现 存储 目的 路 径 的 功能 ， 其 次 再 实现 设置 目 
的 路 径 的 功能 ， 最 后 实现 显示 目的 路 径 的 功能 
注 : 两 个 看 似 无 用 的 全 局 变量 ( const ) 是 为 了 其 他 文件 的 可 见 性 而 
设立 的 ， 且 相对 于 #define 能 够 省 一 些 无 足 轻 重 的 空间 。 


四 存储 目的 路 径 store_hist_path 


SetPath .h 


#include <time.h> 
7 
* @Qversion 1.0 2015/10/02 
* @version wushengxin 
* @param path 需要 存储 的 路 径 
* @function 用 于 存储 路 径 到 本 地 文件 "show_hist" 和 
"use_hist" 
9 
void store hist path(const char * path); 


setPpath.c 


void store hist path(const char * path) 


{ 
time t ctimes; 
time(&ctimes); /* 获取 时 间 */ 
FILE* input_ use = Fopen_s(.file = "LastPath 


.Conf"， .mode = "w"); /* 每 次 写 入 履 盖 */ 

FILE* input_show = Fopen_s(.file = "PathHis 
tory.txt", .mode = "a"); 

if (!input_show || !input_use) 

{ 


#if !defined(NOT_DEBUG AT_ALL) 
fputs("Open/Create the File Fail!", std 
err ); 
#endif 
return,; 
} 
fprintf(input_use, "%s\n", path); /* 写 入 */ 
fprintf(input_show, "%s %s", path, ctime(&c 
times)); 
fclose(input_show); 
fclose(input_use); 
return， 


time 和 ctime 忒 数 的 使 用 网 路 上 的 介绍 更 加 全 面 ， 这 里 不 做 
解释 。 


完成 了 存储 的 函数 之 后 ， 便 是 实现 从 键盘 读 取 并 且 设 置 默认 路 径 
昌 设置 目的 路 径 set_enter_path 


@ 在 此 处 需要 停 下 来 在 此 思考 一 下 ， 如 果 用 户 输 入 了 错误 的 路 径 (无 
效 路 径 或 者 恶意 路 径 )， 也 应 该 被 读 取 吗 ? 所 以 应 该 增加 一 个 检 
查 ， 用 于 确认 路 径 的 有 效 性 。 

m SetPath.h 


#include <string.h> 
#include <io.h> /* access */ 
enum {NOT_EXIST = 0, EXIST = 1}; 
/** 
* @version 1.0 2015/10/02 
* Qauthor wushengxin 
* @function 用 于 读 取 从 键盘 输入 的 路 径 并 将 之 设置 为 默认 
路 径 ， 并 存储 。 
Wh 
void set_enter_path(); 


WE 
* @Qversion 1.0 2015/10/02 
* Qauthor wushengxin 
* @param path 用 于 检查 的 路 径 
* @function 用 于 检查 用 户 输 入 的 路 径 是 否 是 有 效 的 
A 
int is_valid path(const char * path); 


@@ SetPath.c 


int is_valid path(const char * path) 
{/* _access 后 方 有 解释 */ 
if (_access(path，0) == 0) /* 是 否 存 在 */ 
return EXIST; 
else 
return NOT_EXIST ， 


void set_enter_path() 


{ 
int intJudge = 0; /* 用 来 判断 是 否决 定 完成 输入 * 


char tmpBuf[LARGEST_PATH_NAME]; /** 临时 缓冲 
区 7 
while (1) 
{ 
printf("Enter The Path You want!\n"); 
fgets(tmpBuf, LARGEST_PATH_NAME*sizeof( 
char)，stdin); /* 获取 输入 的 路 径 */ 
sscanf(tmpBuf, "%s", to_path_buf); 
if (is_valid path(to_path_buf) == NOT_E 
XIST) 


fprintf(stderr, "Your Enter is Empt 
y, So Load the Default Path\n"); 
fprintf(stderr, "%s \n", SELF_LOAD_. 
DEFAULT_PATH ) ， 
strcpy(to_path_buf, SELF_LOAD_DEFAU 
LT_PATH); 
} 
fprintf(stdout, "Your Enter is \" %s \" 
?(1 for yes, 0 for no) \n", to_path_ buf); 


fgets(tmpBuf, LARGEST_PATH_NAME*sizeof( 
char), stdin); 
sscanf(tmpBuf, "%d"，&intJudge); /* 获取 
判断 数 的 输入 */ 
if (intJudge != 0) 
{ 
if (to _path_buf[strlen(to_path_buf) 


strcat(to_path_buf, "/");/* 如 果 
最 后 一 个 字符 不 是 '/'， 则 添加 ， 这 里 没 考虑 是 否 越 界 */ 
store_hist_path(to_path_buf); 
break; 
} /* if(intJudge) */ 


}/* while (1) */ 
return， 
}/* Set_enter_path */ 


这 一 组 函数 的 功能 稍微 复杂 ， 大 体 来 说 便 是 读 取 路 径 输入 -> 检查 
路 径 有 效 性 -> 读 取 判断 数 -> 是 否 结 束 循环 

其 中 _access 函数 有 些 渊源 ， 因 为 这 个 函数 被 大 家 所 熟知 的 是 
这 个 形式 access ， 但 由 于 这 个 形式 是 POSIX 标准 ， 故 
Windows 将 其 实现 为 access ， 用 法 上 还 是 一 样 的 ， 就 是 名 
字 不 同 而 已 。 


四 显示 历史 路 径 show_hist_path 


SetPath .h 
pe 
* @Qversion 1.0 2015/10/02 
* author wushengxin 
* function 用 于 在 窗口 显示 所 有 的 历史 路 径 
EY 


void show_ hist _ path(); 


setPath.c 


void show_hist_path() 
{ 


system("cls"); 
char outBufName[LARGEST_PATH_NAME] = {'\0'} 


FILE* reading = Fopen_s(.file = "PathHistor 
y.txt", .mode = "r"); 

if (!reading) 

return， 


for (int i = 1; i <= 10&& (!feof(reading)) 
ia 
{ 
fgets(outBufName, LARGEST_ PATH_NAME*siz 
eof(char), reading); 
fprintf(stdout, "%2d. %s", i, outBufNam 
e); 
} 


fclose(reading); 
system("pause"); 
return， 


和 镜 下 最 后 一 个 收尾 工作 
四 初始 化 路 径 
和 每 次 程序 启动 的 时 候 ， 我 们 都 会 读 取 本 地 文件 ， 获 取 上 一 次 程序 
使 用 的 最 后 一 个 路 径 ， 作 为 当前 使 用 的 目的 路 径 
四 初始 化 目的 路 径 init_path 


@ SetPath.h 


Ce 
* @Qversions 1.0 2015/10/02 
* Qauthor wushengxin 
* @function 用 于 每 次 程序 启动 时 初始 化 目的 路 径 
2 


void init_path(); 


@ SetPath.c 


void init_path() 


{ 
int len = 0; 
char last_path[LARGEST PATH_NAME] = { '\0' 
}; 
FILE* hist_file = Fopen_s(.file = "LastPath 
.conf", .mode = "r"); 
if (!hist_file) /* 打开 失败 则 不 初始 化 */ 
return,; 
fgets(last_path, LARGEST_PATH_NAME, hist_fi 
je 


len = strlen(last_path); 
if (len > 1) 
{ 
last_path[len - 1] = '\0'; /* 消除 一 个 多 
余 的 “\n” */ 
strcpy(to_path buf, last_ path); 
} 


return， 


这 样 就 大 功 告 成 了 ， 对 于 这 个 函数 中 的 后 8 行 代码 ， 没 使 用 惯 
用 的 fgets 配合 sscanf 是 因为 如 果 这 么 干 的 话 ， 需 要 搭配 一 
个 memset 元 数 清 零 ， 后 面 会 有 解释 。 


写 在 最 后 方 


。 具 体 思 路 代码 完全 都 贴 出 来 了 ， 除 了 主 界面 的 某 些 细微 区 别 没有 贴 出 来 ， 但 是 
自己 应 该 能 够 完成 。 
e 对 于 memset 的 解释 
o。 这 个 函数 对 于 大 的 内 存 块 的 初始 化 实际 上 是 很 慢 的 ， 当 然 我 们 这 
个 30KB 去 右 大 概 的 内 存 可 能 影响 还 没有 那么 大 ， 但 是 上 兆 以 后 ， 调 
用 memset 就 是 一 种 性 能 问题 了 ， 很 多 情况 下 ， 编 译 器 在 开启 高 优化 等 级 
之 后 会 自动 帮 你 取消 memset 的 隐 式 调用 
o 什么 隐 式 调用 ， 例 如 init_path 的 第 二 行 代码 ， 声 明 并 且 用 花 括号 初始 
化 这 个 数组 的 时 候 ， 就 会 调用 隐 式 memset 。 


结束 


e@ 下 一 次 要 实现 的 就 是 ， 本 程序 的 主体 备份 


0x0E- 单 线程 备份 (下 ) 
写 在 最 前 方 
。 按部就班 的 完成 一 件 事情 ， 是 十 分 美妙 的 感觉 。 
e 在 这 里 并 没有 使 用 Makefile 系列 的 构造 工具 ， 而 是 使 用 集成 开发 环境 直接 一 
站 式 的 完成 所 有 的 工作 ， at nn 
@ 但 是 对 于 这 些 构造 工具 的 功能 还 是 需要 了 解 的 ， 到 了 性 能 瓶颈 期 ， 往 往 是 
ek 微调 来 进行 提升 ， 就 像 算 法 为 什么 有 那么 多 ay 算法 ， 上 
度 都 是 一 样 的 ， 但 是 快速 排序 却 往往 比 堆 排序 要 快 ? 不 就 是 因为 局 部 性 快 
序 要 优 于 堆 排 序 吗 ? 换 印 话说 就 是 缓存 的 命中 率 高 
e@ 不 了 解 底层 ， 永 远 也 无 法 理解 这 个 解释 ， 但 是 前 方 已 经 有 提 到 过 什么 叫做 空间 
局 部 性 和 时 间 局 部 性 ， 至 少 能 有 些 理解 了 。 
@ 构造 工具 也 是 如 此 ， 例 如 ， 编 译 了 源 文件 生成 了 库 文件 ， 当 我 们 在 菜 个 函数 中 
通过 该 库 调 用 这 个 库 中 的 某 些 函数 ， 这 个 库 会 在 在 一 开始 就 加 载 进 我 们 的 程 
。 当 我 们 的 程序 十 分 庞大 的 时 候 ， 也 许 我 们 希望 在 使 用 的 时 候 才 使 用 它 ， 那 
ae 技术。 如 果 没 有 了 解 过 构造 工具 ， 这 些 根本 不 会 
懂 ， 并 且 某 些 情况 下 Unix ，Linux ， Wndowsm Tn 
这 些 都 是 需要 了 解 的 ， 但 是 我 们 现在 的 确 没 有 必要 ， 这 个 程序 满 打 满 算 也 就 是 
四 五 百 行 的 代码 ， 不 太 需 要 考虑 这 些 。 


写 在 中 间 


e 在 完成 备份 之 前 ， A a 份 模型 


o 既然 是 备份 ， 如 果 不 想 扩 展 为 多 线程 的 形式 ， 参 考 第 一 次 写 的 遍历 兄 数 
(show_structure) 直 接 找到 文件 便 调用 Windows API( 稍 后 介绍 ) 进 行 复制 
即 可 ， 不 需要 讲 待 备份 的 文件 路 径 保存 下 来 。 

o 如 果 要 考虑 多 线程 扩展 ， 我 们 就 需要 从 长 计 议 。 

o 对 于 一 个 备份 模型 ， 最 好 的 英 过 于 使 用 一 个 队列 ， 依 昌 实 行 的 是 遍历 模 
式 ， 但 是 将 找到 的 文件 路 径 保 存 ， 并 放 入 一 个 先进 先 出 的 队列 中 ， 这 样 我 
们 就 能 够 保证 在 扩展 成 多 线程 的 时 候 ， 可 以 有 一 个 很 清晰 的 模型 参考 。 

o 那么 现在 的 任务 就 是 实现 这 个 用 于 备份 的 队列 模型 。 

e@ 队列 模型 


。 应 该 有 一 个 容器 空间 : 用 于 存放 路 径 


o 有 队 首 队 尾 标志 
O 〇 (1) 复 杂 度 的 检查 队列 是 否 为 空 的 接口 或 标志 
O(1) 复 杂 度 的 返回 容器 容量 的 接口 或 标志 ， 容 器 容量 应 该 固定 不 变 
o 使 用 一 些 面向 对 象 的 黑 魔 法 ， 保 存 一 些 操作 函数 防止 代码 混乱 。 
上 初始 化 函数 
@ 释放 子 数 
@ 弹出 操作 函数 
m 压 入 操作 函数 
@ 队列 实体 


© 


© 


o 考虑 到 要 存储 的 是 字符 串 ， 并 且 由 于 Windows API 的 参数 需求 ， 对 于 一 个 
文件 ， 我 们 需要 存储 的 路 径 有 两 个 < 源 路 径 ， 目 的 路 径 >， 对 此 应 该 再 使 用 
一 个 路 径 模 型 结构 体 包 衰 他 们 ， 则 空间 的 类 型 就 相应 改变 一 下 
e。 新 建 Queue.h Queue.c 


o Queue.h 


typedef struct _vector_queue queue,; 
typedef struct _combine combine; 


| 返回 值 | | 有 子 数 类 型 名 || 参数 类 型 | 
typedef int (*fpPushBack)(queue * __restric 
t, const char * _ restrict, const char * _ restrict); 
typedef const combine * (*fpPopFront)(queue *); 
typedef void (*fpDelete)(queue *); 


五 个 typedef 不 知道 有 没有 眼前 一 异 。， 硕 望 能 够 很 好 的 理解 


O 


堪 


前 两 个 是 结构 体 的 声明 ， 分 别 对 应 着 队列 模型 和 路 径 模 


后 两 个 是 函数 指针 ， 作 用 是 放 在 结构 体 里 ， 使 C 语 言 的 结构 体 也 能 够 拥有 
一 些 简 单 的 面向 对 象 功 能 ， 例 如 成 员 郊 数 功 能 ， 原 理 就 是 可 以 给 这 些 函 数 
指针 类 型 的 变量 赋值 。 稍 后 例子 更 加 明显 。 试 着 解读 一 下 ， 很 简单 的 。 


struct _combinet 
char * src_from path; /* 源 路 径 */ 
char * dst to path;  /* 目的 路 径 */ 


}; 

struct _vector_queuetf 
combine ** path_contain; /* 存储 路 径 的 容器 主体 */ 
unsigned int rear; /* 队 尾 坐标 */ 
unsigned int front ; J DRT 
int empty; /* 是 否 为 空 */ 
unsigned int capcity; /* 容器 的 容量 */ 
fpPushBack PushBack;  /* 将 元 素 压 入 队 尾 */ 
fpPopFront PopFront; /* 将 队 首 出 队 */ 
fpDelete Delete /* 析 构 释放 整个 队列 空间 */ 

}; 

人 


* @Qversion 1.0 2015/10/03 

* Qauthor wushengxin 

* @param object 外 部 传 入 的 对 象 指针 ， 相 当 于 this 

* @function 初始 化 队列 模型 ， 建 立 队列 实体 ， 分 配 空间 ， 以 及 设置 属性 


EX 
int newQueue(queue* object); 


可 以 看 到 ， 上 方 的 函数 指针 类 型 ， 被 用 在 了 结构 体内 ， 此 处 少 了 一 个 ** 初 始 化 函数 **， 
是 因为 不 打算 把 他 当 作 ** 成 员 哆 数 ( 借 用 面向 对 象 术语 )** 


在 使 用 的 时 候 可 以 直接 `obj_name.PushBack(...，...，...) 和 全 


更 详细 的 可 以 看 后 面 的 实现 部 分 。 成 为 成 员 函 数 的 三 个 函数 ， 将 被 实现 为 “Static、 
函数 ， 不 被 外 界 访问 。 


e queue.c 


int newQueue(queue * object) 


{ 
dueue* loc_ que = object,; 
combine** loc arr = NULL; 
loc arr = (combine**)Malloc_s(CAPCITY * sizeof(combine 
*)); 


If (!loc arr) 
return 1; 


loc_que->capcity = CAPCITY; /* 容量 */ 
loc_que->front = 0; /0 
loc que->rear = 0; ZA 


loc_que->path_contain = loc_arr; /* 将 分 配 好 的 空间 ， 放 进 对 
0 

loc que->PushBack = push_back; 

loc_que->PopFront = pop_front; 


loc que->Delete = del queue; 
return 0O; 
} 
在 初始 化 函数 中 ， 可 以 看 到 ， 设 置 了 队 首 队 尾 以 及 容量 ， 分 配 了 容器 空间 ， 配 
置 了 成 员 函 数 。 


最 后 三 名 配置 流 数 的 语句 中 ， push_back ，pop_front ，del_queue 在 后 
方 以 static 函数 实现 。 


但 是 由 于 没有 声明 ， 所 以 切记 要 将 三 个 static 函数 的 实现 放 
在 newQueue 的 前 方 


Ce 和 
* @version 1.0 2015/10/03 
* Qauthor wushengxin 
* @param object 外 部 传 入 的 对 象 指针 相当 于 this 
* @function 释放 整个 队列 实体 的 空间 
3 
static void del queue(queue * object) 


Free_s(object->path_contain); 


return， 


Ce 


* @version 1.0 2015/10/03 


* Q@author wushengxin 


* @param object 外 部 传 入 的 对 象 指针 相当 于 this 


src 
dst 


源 路 径 
目的 路 径 


* @function 将 外 部 传 入 的 < 源 路 径 ， 目 的 路 径 > 存 入 队列 中 


A 


static int push_back(queue * restrict object, const char 


* restrict src, const char * restrict dst) 


{ 
int times = 0; 
char* Joc src 
char* Joc dst 


combine* loc com 
dueue* loc_que 


SzenE Jen_src 
size 七 Jen dst 


NULL; /* 本 地 变量 ， 尽 量 利 用 寄存 器 以 及 缓存 


NULL; 
NULL; 
object; 


strlen(src); /* 获取 路 径 长 度 */ 
strlen(dst); 


size_t rear = loc_que->rear,; /* 获 取 队 尾 */ 
size_t front = loc_que->front; /* 获 取 队 首 */ 


loc_src = Malloc_s(len_src + 1); /* 分 配 空间 */ 


If (!loc_src) 
return 1; 


loc dst = Malloc_s(len dst + 1); 


if (!loc_dst) 
return 2; 


strcpy(loc_ src, src); 


strcpy(loc dst, dst); 


loc com = Malloc_s(sizeof(combine)); 


If (!loc com) 


return 3; 


loc com->dst_to path = loc_dst; 


loc_ com->src_from_ path 


loc_src; 


loc_que->path_contain[rear++] = loc_com; /* 将 本 地 路 径 加 


入 实体 */ 
loc que->rear 
列 的 步骤 */ 


if (loc que->rear 


(rear % CAPCITY); 


/* 用 数组 实现 循环 队 


loc_que->front) 


loc que->empty = 09; 


return 0; 
} 
Ma 
* @version 1.0 2015/10/03 
* Qauthor wushengxin 
* @param object 外 部 传 入 的 对 象 指针 
“7 


static const combine * 


{ 


size t loc_front 
/* 获 取 当 前 队 首 */ 

combine* loc _ com 
/* 获 取 当 前 文件 名 */ 


object->path_contain[loc_front] 
((object->front) + 1) % 20; /* 完 成 出 队 */ 


object->front = 
if (object->front 
object->empty 
else 
object->empty 
return loc_ com; 


一 个 一 个 的 说 这 些 函 数 


del_queue 


pop_front(queue* object) 


object->front; 


object->path_contain[loc_ front]; 


/* 出 队 操作 */ 


NULL， 


object->rear) 
1; 


90; 


: 释放 函数， 直接 调用 Free s 


push_back : 压 入 函数 ， 将 外 部 传 入 的 两 个 原始 的 没有 组 成 的 路 径 字 符 串 ， 组 
合成 一 个 combine ， 并 压 入 路 径 ， 每 次 都 判断 并 置 是 否 为 空 标志 位 ， 实 际 上 
这 个 函数 中 有 累 次 代码 的 嫌疑 ， 应 该 再 分 出 一 个 函数 ， 专 门 用 来 分 配 三 个 空 
间 ， 防 止 这 个 函数 过 长 (接近 40 行 ) 


pop_front :弹出 函数 ， 将 队列 的 队 首 combine 弹出 ， 用 于 复制 ， 但 是 这 里 
有 一 个 隐患 ， 就 是 要 将 释放 的 工作 交 给 外 者 ， 如 果 朴 忽 大 意 的 话 ， 隐 患 就 是 内 
存 泄 漏 。 


没有 特地 的 提供 一 个 接口 ， 用 来 判断 是 否 为 宅 ， 因 为 当 编译 器 一 优化 ， 也 会 将 
这 种 接口 给 优化 成 直接 使 用 成 员 的 形式 ， 某 种 形式 上 的 内 联 。 


队列 模型 设计 完毕 9 可 以 开始 设计 备份 模型 


备份 模型 可 以 回想 一 下 之 前 的 遍历 函数 ， 大 体 的 结构 一 样 ， 只 是 此 处 为 了 扩展 
成 多 线程 ， 需 要 添加 一 些 多 线程 的 调用 函数 ， 以 及 为 了 规格 化 ， 需 要 添加 一 个 
二 级 界面 

先 设计 一 下 二 级 界面 


二 级 界面 


o 思考 一 下 ， 这 个 界面 要 做 什么 
选择 是 否 开 始 备份 
并 且 源 路 径 需 要 在 此 处 输入 
罩 返回 上 一 级 
o 新 建 backup.h backup.c 文件 
在 主 界 面 选择 1 以 后 就 会 调用 二 级 界面 的 函数 
四 列 出 二 级 界面 的 选项 
m 1 Start Back up 
m 2 Back To last level 
o backup.h 


WE 
* Q@version 1.0 2015/10/03 
* Qauthor wushengxin 
* function 显示 二 级 界面 
yy 
void sec main windows(); 


oO 


backup.c 


void sec_ main_ windows() 
{ 
char tmpBuf[256]; 
int selects,; 
dof{ 
setjmp(select_ jmp); 
system("cls"); 


puts(" 1. Start Back up (The Directory Path Tha 
t You Enter LATER) "); 

puts(" 2. Back To last level "); 

puts(M------- 


fprintf(stdout, "Enter Your Selection: "); 
fgets(tmpBuf, 256, stdin); 
sscanf(tmpBuf, "%d", &selects); 
if (selects != 1 && selects != 2 ) 
{ 
fprintf(stdout, "\n Your Select \" %s \" is 
Invalidi\n Try Again \n", tmpBuf); 
longjmp(select_ jmp, 1); 


} 
switch (selects) 
{ 
jmp_buf enter_path_jmp; 
case 1: 
{ 


char tmpBuf[LARGEST_PATH]，tmpPath[LARGEST 
PATH]， /* 使 用 栈 分 配 空间 ， 因 为 只 用 分 配 一 次 */ 

setjmp(enter_path_jmp); /* enter ju 
mp to there */ 

puts(" Enter the Full Path You want to Back 
Up(e.g: C:/Programing/)"); 

fprintf(stdout, " Or Enter q to back to sel 


ect\nYour Enter : "); 
fgets(tmpBuf, LARGEST_PATH, stdin); 
sscanf(tmpBuf, "%s", tmpPath); 
if (_access(tmpPath, 0) != 0)  /* 检 查 路 径 是 
否 存在 ， 有 效 */ 


if (tmpPath[0] == 'q' || tmpPath[0] == 


longjmp(select_jmp，0); /* 回 到 可 以 
选择 返回 的 界面 */ 
fprintf(stderr, "The Path You Enter is 
Not Exit! xn Try Again : "); 
longjmp(enter_path_jmp, ©0); /* enter ju 
mp from here */ 


} 


break; 
case 2: 
return， 
default: 
break; 
}/* Switch */ 
} while (1); 
return， 


这 个 函数 只 说 几 点 ， 首 先是 switch 的 case 1 ， 之 所 以 用 花 括 号 包 庄 
起 来 的 原因 是 ， 这 样 才 能 在 里 面 定 义 本 地 变量 ， 直 接 在 冒号 后 面 定 义 是 
译 错误 ， 这 个 特性 可 能 比较 少 用 ， 这 里 提 一 下 ， 前 面 也 有 说 过 。 


Ey 


写 在 最 后 方 


e。 剩 下 的 就 是 编写 主要 的 功能 函数 和 线程 调用 函数 了 。 


0x0F- 多 线程 备份 
写 在 最 前 方 


。 到 现在 为 止 我 们 有 了 一 开始 的 遍历 模型 (show_structure)， 队 列 模型 
(queue)° 

e 现在 我 们 需要 做 的 就 是 将 他 们 融合 在 一 起 ， 并 且 通 过 多 线程 将 其 驱动 。 

。 以 下 将 会 用 到 Windows API 和 Windows 线 程 库 <process.h> 以 及 文件 状态 
需要 用 到 的 <sys/stat.h> 

e@ 对 于 一 个 多 线程 的 备份 程序 而 言 ， 可 以 使 用 一 个 十 分 清晰 的 方式 来 实现 ， 通 俗 
的 话 来 说 就 是 ， 一 个 线程 在 不 断 将 路 径 模型 压 入 队列 中 ， 其 他 n 个 线程 不 断 地 
从 这 个 队列 中 弹出 路 径 ， 实 行 复制 n = CPU's core * 2 - 1 。 

e 其 次 我 们 需要 实现 的 是 类 似 增 量 备份 的 效果 ， 即 有 改变 的 文件 才 需 要 重新 复 
制 ， 或 者 新 增 的 才 需 要 复制 。 

e。 剩 下 的 就 是 实现 两 个 供 线程 调用 的 函数 (这 个 函数 有 特殊 )， 一 个 入 队 ， 一 个 出 
队 

@ 之 所 以 选择 Visual Studio 还 有 男 一 个 原因 ， 它 的 菜 些 必 要 函数 是 可 以 开启 支持 
线程 安全 的 ， 这 个 概念 我 不 作 解 释 ， 记 得 在 属性 中 查看 是 否 开启 /MT( 多 线程 ) 


写 在 中 间 


e。 让 我 们 来 施展 一 个 很 久 不 用 的 魔法 3，2，11 


static queue filesVec; VB sa 

HANDLE vecEmpty，vecFull; /* 两 个 Semaphore */ 

HANDLE pushThread; /* 将 路 径 加 入 队列 中 的 线程 */ 

HANDLE copyThread[SELF_THREADS_LIMIT]; /* 将 路 径 弹 出 队列 并 复制 
的 线程 */ 

CRITICAL_SECTION inputSec，testSec，manageSec; /* 关键 段 或 临 
界 区 */ 


/* 计算 时 间 */ 
static clock t start,，finish; /* 备份 开始 ， 结束 时 间 */ 
static double Total time; /* 计算 备份 花费 时 间 */ 


这 些 东 西 ， 都 被 写 在 了 backup.c 中 ， 作 为 全 局 变量 ， 暂 时 先 不 管 其 中 看 不 懂 
的 部 分 ， 可 能 到 现在 为 止 ， 大 家 都 已 经 迷糊 了 。 但 是 没关系 ， 因 为 还 没 说 过 所 
以 迷糊 。 继 续 往 下 


e 从 小 事 做 起 ， 先 实现 一 个 简单 的 增 量 备份 功能 
。 实际 上 就 是 判断 两 个 文件 的 最 后 修改 时 间 是 否 一 致 


o 实现 判断 目的 路 径 上 的 文件 是 否 存 在 
o 如 果 存 在 ， 则 再 次 判断 源 路 径 上 的 文件 和 目的 路 径 上 的 文件 的 最 后 修改 时 
间 是 否 相 同 


e not_changed 


/** 

* @version 1.0 2015/10/03 

* Qauthor wushengxin 

* @param dstfile 目的 路 径 的 文件 

srcfile 源 路 径 的 文件 
* @function 判断 两 个 文件 的 最 后 修改 时 间 是 否 相同 
static int not_changed(const char * restrict dstfile, co 

nst char * restrict srcfile) 


{ 

struct stat dst stat, src_ stat; 

stat(dstfile, &dst_ stat); 

stat(srcfile, &src_ stat); 

return dst_stat.st _ mtime == src_stat.st _ mtime; 
} 


这 个 函数 定义 在 backup.c 中 ， 因 为 没有 在 头 文件 中 声明 ， 所 以 一 定 要 定义 在 
调用 者 的 前 方 。 
这 个 函数 比较 短小 ， 实 现 的 功能 就 是 判断 最 后 修改 的 时 间 是 否 相 同 ， 用 到 头 文 
件 sys/stat.h 

e 两 个 被 线程 调用 的 函数 


o 首先 是 入 队 功 能 的 函数 : 这 个 函数 主要 是 调用 最 后 实现 的 backup 函数 ， 
用 于 递归 遍历 所 给 路 径 下 的 所 有 文件 夹 ， 将 所 有 文件 路 径 转 换 成 路 径 模 
型 ， 压 入 队 中 


Ce 
* @Qversion 1.0 2015/10/03 
* Qauthor wushengxin 
* @param ”pSelect 传 入 的 参数 ， 当 前 为 备份 的 源 路 径 
* function 作为 线程 开始 函数 的 一 个 参数 ， 作 用 是 调用 backup 六 
数 
A 
static unsigned int __stdcall callBackup(void * pSelect 


{ 
char* tmpPath = (char*)pSelect; /* 源 路 径 */ 
start = clock(); /* 开始 计时 */ 
backup(tmpPath, get_backup_tpath()); 
return 0， 

} 


这 个 函数 定义 在 backup.c 中 ， 因 为 没有 在 头 文件 中 声明 ， 所 以 一 定 要 定 
义 在 调用 者 的 前 方 。 


其 中 参数 pSelect 的 用 法 就 像 是 可 以 接受 任何 类 型 的 泛 型 函数 ， 只 不 过 
需要 自己 提前 知道 类 型 ， 这 个 技术 也 被 用 于 C 语 言 的 面向 对 象 ， 可 用 于 隐 
藏 成 员 变 量 和 成 员 函 数 。 最 后 可 能 会 稍微 介绍 一 下 。 


四 其 次 是 出 队 的 函数 : 这 个 函数 的 功能 比较 多 ， 首 先 等 待 队 列 非 空 
(vecFull) 的 信号 (Semaphore)， 得 到 信号 之 后 就 弹出 一 个 路 径 模 型 ， 
进行 复制 操作 ， 并 且 负 责 把 路 径 模 型 使 用 的 内 存 释 放 ， 在 此 释放 一 个 
队列 空 的 信号 ， 进 入 下 一 个 循环 。 


static unsigned int stdcal1 callCopyFile(void * pp 


ara) 
{ 
DWORD isExit = 0; /* 判断 入 队 线 程 是 
否 还 存在 */ 
dueue* address = &filesVec; 
combine* localCom = NULL; 
int empty = 0; 
while (1) 
{ 


char * dst_path = NULL， 


char * Src_path = NULL， 
EnterCriticalSection(&testSec ) ， 
GetExitCodeThread(pushThread, &isExit); /* 
查看 入 队 的 线程 是 否 已 经 结束 */ 
empty = address->empty; /* 查看 此 时 队列 是 否 为 
人 
LeaveCriticalSection(&testSec); 
if (isExit != STILL ACTIVE && empty) /* STI 
LL_ACTIVE 代表 还 在 运行 */ 
{ 
puts("Push Thread is End!"); 
break; 


isExit = WaitForSingleObject(vecFull, 3000) 
; /* 设 定 一 个 等 待 时 间 ， 以 防 死 锁 */ 
If (isExit == WAIT_TIMEOUT ) 
{ 
fprintf(stderr, "Copy Thread wait time 
out!\n"); 


continue; 


EnterCriticalSection(&manageSec); /* 这 个 关 
键 段 的 添加 十 分 重要 ， 是 读 取 时 候 的 核心 */ 
if (!(localCom = filesVec.PopFront(address) 
)) /* 每 次 弹出 时 一 定 要 防止 资源 争夺 带 来 的 冲突 */ 
continue; 
LeaveCriticalSection(&manageSec); 


dst_path = localCom->dst_to_path; /* 空间 局 


部 性 */ 
src_path = localCom->src_from_path ; 


if (CopyFileA(src_path，dst_path， FALSE) == 
0) /* 显 式 使 用 CopyFileA 函数 ， 而 不 是 使 用 CopyFile 宏 */ 
{ 
EnterCriticalSection(&inputSec); 
If (ERROR_ ACCESS DENIED == GetLastError 


()) 


fprintf(stderr, "\nThe File has alr 
eady existed and is HIDDEN or ReadOonly! \n"); 
fprintf(stderr, "Copy File from %s 
Fail!i\n", src_path); 
} 
else if (ERROR_ ENCRYPTION FAILED == Get 
LastError()) 


fprintf(stderr, "\nThe File is Encr 
ypted( 被 加 密 )，And Can't not be copy\n"); 
fprintf(stderr, "Copy File from %s 
Fail!i\n", src_path); 
} 
LeaveCriticalSection(&inputSec); 
} 
Free_s(src_path); 
Free_s(dst_path); 
Free_s(localCom); 


A 


ReleaseSemaphore(vecEmpty, 1, NULL); /* 
放 一 个 信号 量 */ 
}/* while (1) */ 
return 0O; 


这 个 函数 看 似 很 长 ， 实 际 上 大 半 实 在 做 判断 ， 而 不 是 在 做 拷贝 ， 丨 正 
做 拷贝 的 是 在 中 间 部 分 的 WaitForSingle0bject 函数 之 后 才 开始 的 


解释 一 下 


上 四 因为 在 此 处 并 不 是 多 线程 的 基础 文章 ， 而 是 假设 你 有 基础 ， 如 果 
没有 ， 可 以 前 往 一 个 地 方 CSDN 作 者 : Morewindows ， 它 的 多 
线程 文章 十 分 通俗 易 懂 

@ 这 次 我 们 提 到 的 多 线程 概念 有 

@ Semaphore( 信 号 量 ) ， 使 用 的 一 个 类 似 多 个 互 斤 量 的 概念 
”CRITICAL_SECTION( 关 键 段 /临界 区 ) ， 作 用 和 锁 相 同 ， 但 
是 某 些 情况 下 (粗心 ) 不 能 很 好 的 保护 资源 不 被 争夺 ， 不 能 

进程 间 共 享 
mn Mutex( 互 斥 量 ) ， 用 了 非 递 归 的 锁 一 定 能 保护 好 资源 不 被 


田 那么 


争夺 。 但 是 教 CRITICAL_SECTION 的 开销 要 大 。 

m 其 他 信息 请 参看 那 位 的 博客 。 
假设 你 已 经 具备 了 多 线程 的 基础 。 
讲解 一 下 思路 : 。 
首先 可 以 将 线程 当成 这 个 函数 ， 那 么 按 顺序 执行 的 结果 就 是 ， 进 
入 循环 (好 吧 废 话 ) 

其 次 我 们 需要 时 刻 营 惕 ， 入 队 线 程 是 否 已 经 结束 ? 并 且 结束 的 话 
队列 是 否 为 空 ? 如 果 两 个 条 件 同 时 成 立 ， 那 么 就 结束 本 线程 ， 任 
务 结 
只 要 任意 的 条 件 不 符合 ， 就 代表 本 线程 的 任务 还 要 继续 ， 那 么 就 
在 原 地 等 待 信 号 ， 一 个 队列 非 空 ( vecFull ) 的 信号 。 

一 旦 接受 到 信号 ， 就 证 明 队 列 中 有 路 径 模 型 可 以 被 本 线程 弹出 ， 
就 开始 弹出 路 径 模 型 ， 此 时 一 定 要 记 住 用 关键 段 或 者 锁 给 弹出 操 
作 做 保险 。 
这 里 提 一 如， 互 矿 量 (Mutex) 比 关键 段 (Critical Section) 要 可 
靠 ， 但 开销 更 大 
弹出 之 后 就 是 调用 API 进 行 复制 ， 随 后 释放 堆 上 的 空间 ， 有 最 后 释 
gy 号 ， 代 表 队 列 中 的 元 素 被 我 弹出 了 一 个 。 

入 下 一 次 循环 


加 ee 其 中 的 stderr 换 成 文件 流 ， 将 错误 信息 输入 到 文件 中 ， 而 不 
是 屏幕 上 ， 以 保存 错误 信息 不 至 于 丢失 。 
e 下 面 开始 主体 函数 backup 本 人 


o 由 于 此 次 的 代码 过 长 ， 所 以 不 放 上 人 代码， 一切 代码 都 可 以 到 我 的 Github 仓 


库 下 载 。 
o 讲解 思路 


o 首先 backup 和 show_ structure 最 大 的 不 同 便 在 于 后 者 不 需要 保存 
路 径 模型 ， 而 是 直接 使 用 。 

o 故我 们 只 需要 在 ”show_structure 的 路 径 变 量 中 ， 添 加 一 个 目的 路 径 的 
参数 就 行 。 即 backup 函数 中 的 主要 参数 变 为 三 个 : 


/* backup.c : backup */ 

char * from path_buf = make_path(path); /* 源 路 径 */ 

char * to_path buf = make_path(bpath); /* 目的 路 径 */ 

char * find path buf = make_path(path); /* 用 于 Windows 
API FindFirstFile */ 


o 首先 我 们 拥有 一 个 静态 全 局 的 队列 fileVec ， 可 以 被 任何 线程 访问 


o 紧 接 着 我 们 构造 了 两 个 动作 ， 压 入 ( backup )， 弹 出 
( callcopyFile )， backup 有 是 用 callBackup 调用 。 

o 在 二 级 界面 中 ， 当 我 们 选择 第 一 个 选项 开始 备份 后 ， 我 们 选择 在 此 时 获得 
源 路 径 ， 并 将 之 通过 线程 创建 函数 _beginthreadex 传递 给 
callBackup ， 进 而 传递 给 backup 元 数 ， 开 始 压 入 任务 。 


IO 

* @version 1.0 2015/10/03 

* Qauthor wushengxin 

* @param ”pSelect 传 入 的 参数 ， 可 以 是 NULL 

* function 作为 线程 开始 函数 的 一 个 参数 ， 作 用 是 调用 backup 遂 
数 

3 

static unsigned int stdcall callBackup(void * pSelect 


{ 
char* tmpPath = (char*)pSelect,; 
start = clock(); 
backup(tmpPath, get_backup_topath()); 
return 0， 
} 


o 在 创建 并 完成 压 入 线程 之 后 ， 开 始 创建 拷贝 线程 ， 之 所 以 这 么 安排 ， 是 因 
为 压 入 的 操作 必定 比 拷贝 的 要 快 ， 且 我 们 一 开始 便 将 信号 量 的 
VecEmpty 初始 化 为 20 ， 这 是 因为 一 开始 的 队列 是 空 的 ， 需 要 压 入 线 
程 先 开始 行动 。 

o 这 里 需要 提 到 的 是 _beginthreadex 函数 ， 还 有 一 个 与 它 相似 的 函数 是 
_beginthread ， 两 者 之 间 的 区 别 在 于 ， 前 者 参数 更 多 ， 前 者 类 似 
POSIX 里 的 非 分 离 式 线程 属性 ， 前 者 使 用 完 需 要 手动 销魂 ， 前 后 者 调用 的 
函数 修饰 不 一 样 ， 什 么 意思 ? 如 果 下 面 这 个 代码 使 用 后 者 创建 会 发 生 什 么 
问题 ? 

o 想 想 分 离 式 线程 的 特点 ， 就 是 自动 释放 所 有 的 资源 ， 这 就 会 导致 ， 如 果 前 
一 个 线程 比 自己 创建 的 还 快 完 成 任务 ， 那 么 自己 就 可 能 用 到 它 的 句柄 ， 这 
就 可 能 会 造成 错误 。 而 如 果 前 者 的 话 ， 由 程序 员 稍 后 自己 释放 销毁 句柄 ， 
能 保证 一 定 不 会 出 现 这 种 现象 。 


@ 一 直 以 来 都 是 使 用 前 者 。 


/* backup.c : backup */ 

pushThread = (HANDLE)_ beginthreadex(NULL, 0, callBackup 
，(void*)tmpPath,，0,，NULL); /* 压 入 线程 */ 

for (int i = 0; i < SELF THREADS LIMIT; ++i) 

{ 

copyThread[i] = (HANDLE) beginthreadex(NULL, 0, cal 

lCopyFile，NULL，0，NULL); /* 拷贝 线程 */ 

} 


o 在 压 入 的 过 程 中 ， 唯 一 需要 注意 的 就 是 在 压 入 fileVec 的 时 候 ， 一 定 要 
防止 资源 竞争 (同样 适用 在 复制 过 程 中 的 弹出 操作 )， 通 过 信号 量 可 以 有 效 
防止 多 于 1 个 以 上 的 线程 同时 访问 filevec 


/* backup.c : backup */ 
if(is Directory) 
{ ...} 
CSE /A a 1 下 全 
{ 
strcat(tmp_from file buf, fileData.cFileName); 
strcat(tmp_to_file buf, fileData.cFileName); 
if (_access(tmp_to file buf, 0) == 0) /* 如 果 目 标 文件 
存在 */ 





if (is_changed(tmp_from_file_buf，tmp_to_file_b 





uf) ) 


rele_path(tmp_from file_buf); 
rele_path(tmp_to_file_buf); 
continue; /* 如 果 目 标 文件 与 源 文件 的 修改 时 间 相 同 
， 则 不 需要 入 队列 */ 
} 
fprintf(stderr, "File : %s hast changed!i\n", tm 
p_from_file_buf); 
} 
else 
fprintf(stderr, "Add New File %s \n", tmp_from_ 
file_buf); 
/* 使 用 信号 量 防止 竞争 */ 
WaitForSingleObject(vecEmpty, INFINITE ) ; 
EnterCriticalSection(&manageSec ) ， 
filesVec.PushBack(&filesVec, tmp_from file_ buf, tmp 
_to file_ buf); 
LeaveCriticalSection(&manageSec); 
ReleaseSemaphore(vecFull, 1, NULL); 











o 在 复制 的 过 程 中 ， 十 分 有 可 能 出 现 压 入 线程 结束 ， 但 是 找 贝 线程 却 停留 在 
等 待 信号 的 阶段 ， 这 就 要 求 我 们 必须 设 定 一 个 等 待 的 时 间 ， 超 时 则 重新 检 
测 是 否 是 压 入 线程 结束 且 队 列 空 。 这 一 点 十 分 重要 ， 可 以 自己 思考 一 下 。 


/* backup.c : callCopyFile */ 

EnterCriticalSection(&testSec); 

GetExitCodeThread(pushThread，&isExit); /* 查看 入 队 的 线程 
是 否 已 经 结束 */ 

empty = address->empty; /* 查看 此 时 队列 是 否 为 空 */ 

LeaveCriticalSection(&testSec); 

if (isExit != STILL ACTIVE && empty) /* STILL_ACTIVE 代 
表 还 在 运行 */ 


{ 
puts("Push Thread is End!\n"); 


break; 


isExit = WaitForSingleobject(vecFu11，3000); /* 设 定 一 个 
等 待 时 间 ， 以 防 死 锁 */ 
If (isExit == WAIT_TIMEOUT ) 


{ 
fprintf(stderr, "Copy Thread wait time out!\n"); 


continue; /* 所 有 代码 都 在 一 个 while(1) 中 */ 


o 当 所 有 线程 都 退出 就 代表 任务 完成 ， 要 销毁 一 系列 相关 参数 。 


写 在 最 后 


。 添加 了 多 线程 以 后 ， 前 方 有 一 些 原始 代码 是 需要 修改 的 才能 使 用 ， 比 如 队列 模 
型 ( Queue.c ) 中 的 一 些 代码 ， 需 要 用 关键 段 进行 修饰 ， 防 止 资 源 争 夺 。 其 他 
方面 没有 太 多 需要 修改 的 

。 完整 代码 被 我 放 在 我 的 Github 仓 库 


简单 总 结 


e 使 用 的 Windows API 中 CopyFile CreateDirectory FindFirstFile 
FindNextFile ， ne 。 
e@ 在 此 处 ， 可 以 换 一 个 思路 思考 一 下 ， 是 否 可 以 对 容器 队列 ， 进 行 线程 安全 保 
护 ， 从 而 不 必 在 主 代码 中 一 直 使 用 人 ?至少 
a PushBack 和 OD 两 个 操作 上 可 以 不 必 担 心 资源 争夺 。 防 止 在 编写 
序 的 时 候 粗心 大 意 忘记 了 保护 。 


多 线程 备份 


146 


Cu 
广 


e 首先 前 面 提 到 了 一 个 思路 : 给 队列 模型 添加 初步 的 线程 保护 ， 在 使 用 它 的 时 


候 ， 


可 以 不 考虑 会 保护 其 免 受 资源 争夺 的 问题 


实际 上 就 是 将 CRITICAL _SECTION 放 在 Queue.c 的 实现 当中 。 

让 两 个 基本 操作 PushBack PopFront 能 够 自己 实现 保护 自己 

具体 应 该 怎么 做 呢 ? 之 前 的 我 们 对 队列 模型 中 的 empty 实现 了 单独 保 
护 ， 现 在 反 过 来 ， 将 其 保护 范围 扩大 一 些 就 行 了 。 


具体 方法 Queue.c 


oO 


© 


oO 


oO 


首先 是 取消 使 用 empty_sec 这 个 关键 段 /临界 区 

使 用 新 的 static CRITICAL SECTION io_section， 

修改 newQueue 和 del queue 里 的 初始 化 和 销毁 关键 段 代 码 。 
以 及 重点 的 push_back 和 pop_front 的 代码 修改 ， 前 者 变化 多 一 些 


static int push_back(queue * restrict object, const c 
har * restrict src, const char * restrict dst) 
{ 
char* loc_src = NULL; /* 本 地 变量 ， 尽 量 利用 寄存 器 以 
及 缓存 */ 
char* loc dst = NULL; 
combine* loc com = NULL; 
dueue* loc que = object,; 


size t len src = strlen(src); /* 获取 路 径 长 度 */ 
size_t len dst = strlen(dst); 

size t rear = 0; /* 队列 的 队 尾 */ 

size t front = 0; /* 队列 的 队 首 */ 


loc_src = Malloc_s(len_src + 1); /* 分 配 空间 */ 

loc_dst Malloc_s(len dst + 1); 

loc com = Malloc_ s(sizeof(combine)); 

if (loc_src == NULL || loc dst == NULL || loc com = 
= NULL) 

{ 


Free_s(loc_src); /* 特殊 处 理 过 的 释放 函数 */ 
Free_s(loc dst); 
Free_s(loc_ src); 


return 工 ; 
} 
strcpy(loc_src，Ssrc); /* 构造 路 径 模型 */ 
strcpy(loc dst, dst); 
loc com->dst_to path = loc_dst; 
loc com->src from path = loc_ src; 
We Sa i 
EnterCriticalSection(&io_section); 
rear = loc _ que->rear;  /* 获 取 队 尾 */ 
front = loc_que->front; /* 获 取 队 首 */ 


loc_que->path_contain[rear++] = loc_com; /* 将 本 地 路 
径 加 入 实体 */ 

loc_ que->rear = (rear % CAPCITY); /* 用 数组 实现 循 
环 队列 的 步骤 */ 

/* 取消 原先 的 保护 */ 

if (Loc_que->rear == loc_que->front) 


{ 
loc que->empty = 0; 


} 


LeaveCriticalSection(&io_section); 
return 0O; 


注释 里 写 了 很 多 信息 ， 主 要 教之 前 的 版 本 改变 了 一 下 串 行 代码 的 顺序 ， 功 
能 并 没有 太 大 变化 ， 变 化 的 两 处 地 方 ， 一 个 是 内 存 分 配 错 误 判 断 由 三 

个 if 变 成 一 个 if ， 另 一 个 是 为 了 使 临界 区 内 的 代码 尽 可 能 少 ， 所 以 将 
一 些 操作 移动 了 。 


pop_front 代码 基本 没 改变 只 是 将 临界 区 扩大 了 保护 范围 。 


static combine * pop_front(queue* object ) 
{ 
EnterCriticalSection(&io_ section); 
size_t loc_front = object->front; 
/* 获 取 当 前 队 首 */ 


// EnterCriticalSection(&empty_sec); /* 原先 的 临界 区 起 


始 */ 
if (object->front == object->rear) 
object->empty = 
else 
object->empty = 
// LeaveCriticalSection(&empty_sec); 
LeaveCriticalSection(&io_section); 
return loc_ com; 
} 


e@ 如 此 修改 以 后 ， 该 队列 模型 就 具备 了 初步 的 线程 安全 功能 。 


@ 在 主 代 码 中 ， 可 以 删除 PopFront 和 PushBack 附近 的 保护 操作 。 
@ 前 方 提 到 了 ， CRITICAL_SECTION 相对 于 Mutex 不 太 安 全 ， 这 里 简单 说 一 
下 ， 具 体 请 查询 相关 资料 
o 前 者 只 对 当前 代码 段 负 责 ， 也 就 是 其 他 操作 这 个 资源 的 途径 是 不 被 保护 
的 。 
o 通俗 的 来 说 ， 假 设 有 多 个 线程 ， CRITICAL_SECTION 只 保证 在 同 ee 
间 " 内 ， 只 有 一 个 线程 能 够 运行 这 段 代码 ， 0 他 代码 还 有 对 这 
代码 中 的 资源 进行 访问 ， 那 关键 段 就 不 能 保证 什么 
o 速度 快 开销 小 是 因为 它 和 内 核 关 系 不 大 ， 
@ 发 现 问题 了 吗 ? 
o 在 代码 中 ， 对 于 empty 的 操作 存在 着 问题 ， 我 们 必须 对 它 进 行 类 
似 Mutex 的 保护 ， 而 不 是 使 用 CRITICAL_SECTION 
o 我 们 这 里 应 该 使 用 Mutex 吗 ? 其 实 有 一 个 更 好 的 选择 ， 那 就 是 在 
Windows Vista 之 后 引入 的 一 个 读 写 锁 SRWLOCK Li 个 线程 读 取 数 
据 或 者 单个 线程 写 入 数据 
四 为 什么 选择 它 ? 道理 还 是 一 样 ， 因 为 它 不 使 用 内 核资 源 。 
@ 将 代码 中 对 empty 的 关键 段 保护 修改 或 添加 上 SRWLOCK 读 写 锁 的 
保护 


@ 操作 并 没有 什么 区 别 ， 就 是 进入 保护 区 请 求 
( AcquireSRWLock(Exclusive/Shared) )， 离 开 保 护 区 释放 
( ReleaseSRWLock(Exclusive/Shared) )° 

四 本 来 有 一 个 更 好 的 可 以 减 小 开销 的 TryAcquire... 操作 ， 但 是 确 
在 Windows 7 以 后 才 引 入 ， 故 不 在 此 实现 。 


@ 所 谓 读 写 锁 ， 并 不 是 所 谓 的 银 弹 ， 意 思 就 是 不 要 讶 目的 使 用 读 写 锁 ， 这 里 使 用 
读 写 锁 只 是 因为 想 要 更 加 全 面 的 履 盖 知识 点 ! 

e@ 要 知道 读 锁 的 加 持 ， 并 不 一 定 就 比 一 个 互 斥 锁 ( 这 是 Linux 平 台 下 对 Windows 临 
界 区 的 称呼 ) 要 廉价 ， 特 别 是 在 库 设 计 实 现 者 手 里 ， 他 必须 考虑 到 种 种 因素 ， 例 
如 写 锁 狐 死 现象 ， 想 要 解决 这 个 问题 ， 就 不 可 避免 的 要 牺牲 读 锁 的 性 能 ， 有 
可 能 将 互 斥 锁 替换 成 读 写 锁 以 后 ， 性 能 反而 降低 了 。 


写 锁 狐 死 ， 有 是 个 挺 广泛 的 概念 ， 只 要 有 读 写 锁 的 身影 就 必定 有 它 ， 可 以 查阅 相 
关 资 料 


e 这 一 切 都 是 需要 测试 ， 测 试 ， 再 测试 ， 之 所 以 选择 在 Windows 平台 上 开发 ， 
原因 之 一 就 是 Visual Studio 有 一 套 强 大 到 爆 表 的 性 能 分 析 工 具 ， 你 可 以 轻易 找 
出 代码 性 能 问题 。 善 用 它 来 研究 不 同 锁 之 间 的 差别 ， 性 能 。 

e。 对 于 多 线程 程序 而 言 ， 同 步 原 语 实际 上 还 是 要 善 用 条 件 变量 / 互 斥 锁 (临界 区 , 关 
键 段 ) 这 两 个 概念 ， 能 满足 90% 的 需求 ， 最 多 再 使 用 一 些 平台 关键 字 就 行 了 ， 
不 要 参 杂 着 各 种 各 样 的 同步 魔法 ， 要 不 就 换 一 种 思维 ， 除 了 多 线程 ， 并 发 世界 
还 有 许多 “很 美好 ”的 东西 


很 美好 。。。 是 我 自己 说 的 


第 四 部 分 


所 谓 系 统 编程 之 一 
TCP/IP 编程 
常见 网 络 协议 及 UDP TCP 应 用 。 


最 后 以 详 述 描写 ， 如 何在 Linux 上 编写 一 个 并 发 HTTP 服 务 器 作为 本 章 结尾 。 
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0x10- 网 络 的 世界 


写 在 最 前 方 

。 网 络 编程 没有 想象 之 中 的 难 ， 但 是 同样 一 名 废话， 也 没有 想象 之 后 那么 容易 。 

e。 接 下 来 记录 的 是 对 于 网 络 编程 的 一 些 教 接近 底层 的 东西 ， 也 就 是 称 之 为 系统 接 
口 函 数 的 东西 ， 通 常 叫 做 系统 编程 ， 

。 当然 网 络 编程 在 非 学 院 派 看 来 ， 是 使 用 一 些 成 熟 的 库 (这 是 对 于 C 语 言 来 说 ， 当 
然 很 少 有 人 愿意 这 么 做 ， 但 个 人 觉得 有 了 库 的 C 就 和 其 他 高 级 语言 更 像 了 ) 
( 注 : C/C++ 都 没有 标准 网 络 库 ， 所 以 只 能 使 用 第 三 方 开发 的 库 ， 所 谓 乱 世 出 
英雄 。C++ 在 C++17 似乎 要 有 了 。 ) ， 例 如 libev 这 一 类 的 。 

e@ 最 后 ， 还 是 先 将 底层 基础 打 好 为 妙 。 


开始 首先 是 万 物 根源 的 协议 信息 


概念 


。 最 具 误 导 性 的 当 属 于 TCP/IP 协议 了 
o 所 谓 TCP/IP 协议 指 的 并 不 是 一 个 协议 ， 往 往 在 生活 中 听见 的 术语 如 : 
IP 地 址 ，TCP 连 接 等 ， 总 会 被 误导 ， 以 为 就 是 一 个 东西 
o 实际 上 它们 都 是 彼此 独立 的 协议 ， 只 不 过 会 相互 合作 黑 了 
o TCP/IP 说 的 是 一 个 协议 族 ， 也 就 是 说 是 一 堆 协 议 的 统称 
e。 对 比 OSI 和 TCPI/IP 参考 模型 : 


OSI TCPI/IP 
应 用 层 表示 层 会 话 层 应 用 层 
传输 层 传输 层 
网 络 层 网 络 层 
链 路 层 物理 层 网 络 接口 层 


。 其 中 最 第 接触 的 
o 位 于 网 络 层 的 IP 协议 ， 大 家 所 熟知 的 ”IP 地 址 就 是 由 它 进 行 封装 并 传 
往 下 一 层 
o 位 于 传输 层 的 TCP/UDP 两 个 协议 ， 一 个 是 面向 连接 (STREAM), 一 个 是 
面向 数据 (DGRAM) 的 ， 实 际 上 还 有 一 个 但 这 里 不 记录 。 


o 查看 自身 网 络 信息 的 办 法 
@ *nix :在 Terminal 中 输入 ifconfig -a 
@ Windows :在 PowerShell 中 输入 ipconfig 
。 概念 模糊 的 DNS 
o 其 实 很 简单 ， 它 的 作用 就 是 用 来 找到 域名 所 对 应 的 IP 地 址 
o 为 什么 ? 因为 IP 地 址 太 难 记 了 ! 如 果 你 觉得 IPv4 地 址 还 难 不 倒 你 ， 那 请 
你 试 试 IPv6 
o 怎么 查看 域名 对 应 的 IP 地址 ， 当 然 先 不 考虑 CDN 
@ *nix 和 Windows 都 可 以 通过 ping <domain name> 命令 进行 
查询 
e。 MAC 地址 和 端口 号 
o 对 于 前 者 ， 实 际 上 应 该 是 最 熟悉 不 过 的 ， 对 于 网 络 上 的 主机 而 言 ， 每 一 台 
主机 就 有 一 个 专属 的 MAC 地 址 
o 后 者 则 是 相当 于 一 个 房子 的 门 ， 这 个 比喻 在 各 大 教材 中 广泛 引用 ， 但 也 的 
确 贴切 ， 假 设 IP 地 址 是 房子 的 地 址 ， 那 么 到 了 别人 家 要 知道 门 在 哪 才 
行 。 


一 个 完整 的 应 用 程序 传输 数据 时 候 封装 的 过 程 ( 从 右 二 向 左 依次 封装 ) : 


以 大 网 首部 IP TCP/UDP 站 实数 据 
MAC 地 址 IP 地 址 TCP 或 者 UDP 协议 应 用 程序 数据 验 
码 
源 和 目的 ” 及 前 层 。 源 和 目的 端口 号 及 前 层 。 应 用 软件 信息 和 
应 用 程序 首部 信息 昊 正 的 数据 


及 型 
其 中 端口 号 实际 上 就 是 应 用 程序 的 信息 
接收 数据 时 的 拆 解 顺序 与 封装 正好 相反 。 


e。 其 中 在 传输 过 程 中 ， 作 为 接收 方 最 开始 使 用 的 是 网 络 接口 层 / 数 据 链 路 层 的 驱 
动 程序 ( 即 操作 系统 自 带 或 另行 安装 ， 总 之 不 用 使 用 的 程序 员 写 就 对 了 )， 来 判 
断 这 个 包 是 否 属于 我 ， 判 a MAC 地 址 ， 如 果 是 再 判断 什么 协议 


o 在 此 处 的 协议 可 不 止 IP 协 议 ， 也 可 能 是 ARP 协 议 等 。 之 后 就 是 就 事 论 事 


交 给 相应 的 处 理 软 件 去 处 理 ( 拆 解 ) 就 行 
o 科普 : MAC 地 址 是 48bit 的 ， 前 24bit 由 IEEE 分 配 ， 后 24bit 


由 厂商 分 配 。 原 则 上 是 唯一 的 。 
。 MAC 地 址 和 IP 地 址 


o 既然 前 方 说 到 MAC 地 址 和 IP 地 址 都 能 够 作为 识别 另 一 个 主机 的 唯一 标 
识 ， 但 是 为 什么 需要 有 两 个 相同 功能 的 东西 ? 

o 是 ， 在 一 开始 ， 网 络 很 小 的 情况 下 ， 例 如 我 们 在 同一 个 局 域 网 中 ， 我 们 之 
间 需 要 通信 的 时 候 ， 只 需要 使 用 ARP 协 议 ， 进 行 广播 ， 向 在 一 个 网 络 中 的 
所 有 主机 发 送 消息 就 行 ， 剩 下 的 就 让 其 他 主机 去 判断 (通过 MAC 地 址 ) 这 个 
数据 是 不 是 发 给 我 的 。 

mn ARP 协议 的 作用 就 是 在 同一 个 网 络 中 ， 通 过 广播 找 出 符合 自己 要 求 
的 主机 的 MAC 地 址 ， 如 果 不 在 同一 个 网 络 中 ， 又 想 知 道 对 方 的 MAC 
地 址 ， 那 只 能 借助 把 每 个 网 络 链接 在 一 起 的 网 关 来 帮助 你 发 送 。 总 
之 进行 网 络 通信 时 必须 知道 对 方 的 IP 地 址 和 MAC 地 址 

o 但 是 如 果 是 现在 整个 互联 网 呢 ? 不 算 IPv6 ， 就 算 IPv4 也 是 几 十 亿 的 存 
在 ， 如 果 我 从 中 国 向 国外 发 送信 息 ， 广 播 整个 互联 网 的 所 有 主机 ， 那 就 炸 
了! 

o 所 以 我 们 需要 对 世界 网 络 进 行 分 区 ， 让 大 区 域 包含 小 区 域 ， 就 像 国家 -省 - 
市 区 ... ， 很 遗憾 的 是 MAC 地 址 是 跟 计算 机 相关 而 不 是 和 位 置 相 关 的 。 所 
以 我 们 有 了 IP 协议 

o IP 协 议 所 附带 的 产品 IP 地 址 的 作用 就 在 帮助 计算 机 识别 自己 是 否 在 同一 
个 网 络 中 ( 这 里 省 略 了 子 网 掩 码 的 作用 )。 

e。 实际 上 ， 在 进行 网 络 编程 的 时 候 ， 以 上 细节 几乎 都 被 隐藏 起 来 ， 留 给 我 们 的 只 
是 可 供 使 用 的 接口 。 


也 许 ， 许 多 大 学 计算 机 基础 课程 ， 会 讲 到 IP 地 址 有 种 类 ， 分 为 A,B,C... 类 ， 老 
师 还 介绍 了 各 种 类 型 的 地 址 范围 。 


但 是 在 现代 ， 这 种 分 类 早已 经 失效 ， 或 者 说 正在 逐渐 消失 ， 因 为 当下 的 IP 地 址 
的 子 网 掩 码 可 以 是 任意 位 ， 并 以 反 斜 杠 跟 在 |P 地 址 后 方 。 


比较 现代 的 IP 地 址 表示 形式 一 般 如 此 1.185.223.1/24 代表 着 子 网 掩 码 是 由 24 
个 从 左 至 右 连 续 的 的 二 进 制 1 组 合 而 成 ， 其 余 位 为 0。 称 为 CIDR 分 类 
夹 在 中 间 

事实 上 有 一 些 实用 且 挺 炫 酷 的 函数 ， 可 以 先 提 一 下 


e@ 域名 和 |P 地 址 的 互 查 


o gethostbyname 用 于 域名 查找 IP 信息 及 各 类 信息 
@ Struct hostent * gethostbyname(const char * hostname) 
@ struct hostent 是 存储 查找 到 的 各 类 型 信息 ， 后 方 会 有 介绍 
@ hostname 即 要 查询 的 域名 
o gethostbyaddr 用 于 |P 地 址 查找 域名 及 各 类 信息 
@ Struct hostent * gethostbyaddr(const char * addr, 
socklen_t len, int family) 
addr 是 要 查询 的 |P 地 址 ， 之 所 以 是 const char * 是 因为 
C 语 言 历史 遗留 的 原因 ， 实 际 上 其 类 型 应 为 struct in_addr 
* (IPv4) 
@ len 地 址 的 长 度 ， 即 IPv4 为 4，IPv6 为 16 
family 即 协 议 的 种 类 ，|IPv4 为 AF_INET ,1Pv6 为 


AF_INET6 

struct hostent 类 订 沁 

的 成 员 型 、 解释 
h_name char 官方 名 称 
h_aliases el 域名 集合 ， 以 NULL 结 尾 
h_addrtype int 地 址 族 的 类 型 AF_INET 或 AF_INET6 
h_length int 地 址 的 长 度 4 或 16 
el et char IP 的 集合 ， 以 NULL 结 尾 , 实际 上 每 个 元 素 的 


类 型 为 struct in_addr* 


。 其 中 第 二 和 最 后 一 个 是 关注 的 重点 所 在 ， 可 以 在 调用 函数 之 后 ， 输 出 信息 
实际 上 ， 这 并 不 是 一 个 好 的 方法 ， 在 后 方 将 记录 现代 人 的 我 们 该 如 何 做 
到 这 些 事情 ， 以 上 只 是 以 前 的 TCP/IP 编程 


只 适用 于 |Pv4 
套 接 字 网 络 编程 初始 


选择 使 用 C 语言 进行 编程 


e@ 在 网 络 编程 中 ， 最 常 实用 的 两 种 连接 方式 TCP 和 UDP 
e@ 最 常 编程 的 平台 POSIX 标准 ->*nix 平 台 标准 和 Windows 平台 标准 


o 实际 上 ， 后 者 也 是 参考 前 者 进行 一 些 细微 的 改变 ( 指 的 是 接口 ) 
对 比 两 种 不 同 连 接 方式 的 不 同 地 位 的 创建 ， 使 用 


TCP 服 务 TCP 客 户 


on 


UDP 服务 器 UDP 客户 端 注释 


创建 套 
接 字 

绑 定 所 
分 配 |IP 
地 址 和 
端口 号 


socket() socket() socket() socket() 


bind() bind() bind() 


客户 端 
则 绑 定 
IP 地 址 
和 端口 
号 ， 并 
等 待 连 
接 ; 服 
务 器 则 
是 等 待 


listen() connect() 


连接 

服务 器 
accept() 0 
接 


对 于 
UDP 即 
sendto/recvfrom() ”sendto/recvfrom() 是 连接 
也 是 操 
作 
双向 直 
close() close() close() close 接 关 闭 
连接 
可 选择 
方向 的 
shutdown() shutdown() shutdown() shutdown() 关闭 连 
接 , 即 更 
加 灵活 


如 此 对 比 虽 然 有 一 些小 瑕 疫 ， 但 是 能 够 大 体 上 反映 出 昌 个 网 络 编程 上 不 同方 式 的 区 
别 


注 1: 对 于 sendto recvfrom 这 两 个 接口 孔 数 ， 并 不 一 定 是 只 能 用 在 UDP 类 型 
的 套 接 字 上 ， 同 样 TCP 类 型 的 套 接 字 也 能 使 用 ， 但 是 这 么 做 并 没有 什么 意 
义 O 


注 2 : 实际 上 UDP 没有 所 谓 的 服务 器 和 和 护短 ， 因 为 本 来 就 是 单纯 的 互相 发 
来 发 去 。 客 户 端 端口 一 般 是 随机 的 


以 上 是 *nix 平 台 下 的 标准 ，Windows 下 的 操作 方式 和 API 有 细微 不 同 ， 但 大 部 
分 是 一 致 的 。 


Windows *niX 
socket() socket() 
bind() bind() 
connect() connect() 
listen() listen() 
accept() accept() 
closesocket() close() 
send() send() 
read() read() 
sendto() sendto() 
recvfrom() recvfrom() 


不 仅仅 是 接口 名 字 相 同 ， 参 数 个 数 以 及 功能 也 是 一 致 ， 即 使 有 一 个 例外 ， 其 参数 以 
及 使 用 方法 也 相同 。 


那 岂 不 是 可 以 直接 移植 了 ? 
站 外 


在 Windows 套 接 字 编程 时 ， 由 于 Windows 将 其 实现 为 动态 库 ， 所 以 在 使 用 时 
需要 将 其 加 载 进程 序 。 


故而 多 加 了 加 载 操作 。 


int WSAStartup( 

WORD wVersionRequested, 

LPWSADATA lpWSAData /* 这 是 一 个 结构 体 ， 传 入 类 型 为 WSADATA* */ 
); 
int WSACleanup(void); 


每 当 在 Windows 上 进行 套 接 字 编 程 时 ， 总 要 指定 某 个 版 本 的 套 接 字库 : 


WSADATA wsaData,; 

int err_code; 

pA 

* MAKEWORD( ) 的 作用 在 于 将 版 本 号 转 为 指定 格式 传 入 

* 当下 (2015-10) 套 接 字 库 的 版 本 号 最 高 是 2.2 

2 

err_code = WSAStartup(MAKEWORD(2, 2), &wsaData); 
/* TODO Something */ 

WSACleanup( ); 


这 是 最 基本 的 在 Windows 上 使 用 套 接 字 编程 的 流程 ， 但 是 如 果 本 平台 的 套 接 字 
库 最 高 版 本 并 不 符合 当前 要 求 呢 ? 


那么 首先 会 将 套 接 字 版 本 库 尽 可 能 设置 到 平台 的 最 高 版 本 ， 可 以 通过 结构 体 
WSADATA 进行 查询 


if (LOBYTE(wsaData.wVersion) != 2 || HIBYTE(wsaData.wVersion) != 
2) 
{ 
printf("Could not find a usable version of Winsock.dll\n"); 
wsSACleanup( ); 
return 工 ; 


总 体 而 言 ， Windows 平 台 和 *uix 平 台 的 区 别 在 于 ， 前 者 使 用 时 需要 加 载 
和 清除 套 接 字库 其 余 逻 辑 流程 一 致 ， 毕 竟 只 有 统一 才能 越 利 于 编程 世界 的 发 
展 。 


网 络 的 世界 
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套 接 字 编 程 


e@ 两 种 协议 TCP 和 UDP 
o 前 者 可 以 理解 为 有 保证 的 连接 ， 后 者 是 追求 快速 的 连接 
o 当然 最 后 一 点 有 些 、 ， RE ， 因 为 初 入 套 接 

字 编 程 ， 一 切 从 简 

o 稍微 试想 便 能 够 大 致 理 解 ， 

求 的 则 是 快速 的 传输 数据 

前 者 有 繁琐 的 连接 过 程 ， 后 者 则 是 根本 不 建立 可 靠 连 

将 数据 发 送 而 不 考虑 是 否 到 达 。 

以 下 例子 以 *nix 平台 的 便 准 为 例 ， 因 为 Windows 平台 需要 考 

载 问题 ， 稍 作 添 加 就 能 在 Windows 平台 上 运行 


TCP 追求 的 是 可 千 的 传输 数据 ， UDP 追 


车 接 ( 不 是 绝对 ) ”和 八 只 是 


虑 额外 的 加 


一 个 十 分 简洁 的 连接 方式 ， 假 设 有 两 台 主 机 进 


int sock; /* 套 接 字 */ 
socklen_t addr_len; /* 发 送 端的 地 址 长 度 ， 用 于 recvfrom * 


char mess[15]; 
char get_mess[GET_MAX]; /* 后 续 版 本 使 用 */ 
struct sockaddr_in recv_host, send_host; 


/* 创建 套 接 字 */ 
sock = socket(PF_INET, SOCK_ DGRAM, 0); 


/* 把 IP 和 端口 号 信息 绑 定 在 套 接 字 上 */ 

memset(&recv_host, ©0, sizeof(recv_host)); 

recv_host.sin_family = AF_INET; 

recv_host.sin addr.s addr = htonl(INADDR_ANY);/* 接收 
任意 的 IP */ 

recv_host.sin port = htons(6000); /* 使 用 6000 端口 号 * 


bind(sock, (struct sockaddr *)&recv_host, sizeof(recv 
_host) ) ， 


/* 进入 接收 信息 的 状态 */ 
recvfrom(sock, mess, 15, 0, (struct sockaddr *)&send_ 
host, &addr_len); 


/* 接收 完成 ， 关 闭 套 接 字 */ 
close(sock); 


上 述 代码 省 略 了 许多 必要 的 错误 检查 ， 在 实际 编写 时 要 添加 


o 代码 解释 : 

1. PF_INET 代表 协议 的 类 型 ， 此 处 代表 IPv4 网 络 协 议 族 ， 同样 
PF_INET6 代表 IPv6 网 络 协 议 族 ， 这 个 范围 在 后 方 单独 记录 ， 不 与 
IPv4 混 在 一 起 (并 不 意味 着 更 复杂 ， 实 际 上 更 简便 )。 

2. AF_INET 代表 地 址 的 类 型 ， 此 处 代表 IPv4 网 络 协 议 使 用 的 地 址 族 ， 
同样 有 AF_INET6 (在 操作 系统 实现 中 PF INET 和 AF_INET 的 值 一 
样 ， 但 是 还 是 要 写 宏 更 好 ， 而 不 应 该 直接 用 数字 或 者 ， 混 消 使 用 ) 

3.，hton1 和 htons 两 个 函数 的 使 用 涉及 到 大 端 小 端 问题 ， 这 里 不 
叙述 ， 需 要 记 住 的 是 在 网 络 编程 时 一 定 要 使 用 这 种 函数 将 必要 信息 转 


为 大 端 表示 法 。 

4. (struct sockaddr *) 这 个 强制 转换 是 为 了 参数 的 必须 ， 但 不 会 
出 错 ， 因 为 sizeof(struct sockaddr_in) == sizeof(struct 
sockaddr) 具体 可 以 查询 相关 信息 ， 之 所 以 这 么 做 是 为 了 方便 编写 
套 接 字 程序 的 程序 员 。 

o 发 送 端 : 


int sock; 

const char* mess = "Hello Server!"; 

char get_mess[GET_MAX]; /* 后 续 版 本 使 用 */ 

struct sockaddr_in recv_host 

socklen t addr_len; 

/* 创建 套 接 字 */ 

sock = socket(PF_INET, SOCK_ DGRAM, 0); 

Vw 

memset(&recv_host, 0, sizeof(recv_host)); 

recv_host.sin_family = AF_INET; 

recv_host.sin addr.s addr = inet_ addr("127.0.0.1"); 

recv_host,.sin port = htons(6000); 

/* 发 送信 息 */ 

/* 在 此 处 ， 发 送 端的 ITP 地 址 和 端口 号 等 各 类 信息 ， 随 着 这 个 函数 的 调 
用 ， 自 动 绑 定 在 了 套 接 字 上 */ 

sendto(sock, mess, strlen(mess), 0, (struct sockaddr 
*)&recv_host, sizeof(recv_host)); 

/* 完成 ， 关 闭 */ 

close(sock); 


li 


上 述 代码 是 发 送 端 。 


o 代码 解释 : 
1. inet_addr 函数 是 用 于 将 字符 串 格式 的 IP 地 址 转换 为 大 端 表示 法 
的 地 址 类 型 ， 即 s addr 的 类 型 in_addr_t 
2. 与 之 相反 ， 同 样 也 有 功能 相反 的 函数 inet_ntoa 用 于 将 
in_addr_ t 类 型 转 为 字符 串 ， 但 是 使 用 时 一 定 要 记 住 及 时 拷贝 返回 
值 


char addr[16]; 
recv_host.sin addr.s_ addr = inet_addr("127.0.0.1"); 
strcpy(addr, inet_ ntoa(recv_host.sin addr.s addr)); 


o 从 上 述 代码 看 出 ， UDP 协议 的 使 用 十 分 简洁 ， 几 乎 就 是 创建 套 接 字 -> 
准备 数据 -> 装备 套 接 字 -> 发 送 / 接 收 -> 结束 

o 其 中 ， 都 没有 连接 的 操作 ， 但 是 实际 上 这 是 为 了 方便 UDP 随时 和 不 同 
的 主机 进行 通信 所 默认 的 设置 ， 如 果 需 要 和 相同 主机 一 直通 信 呢 ? 

o 此 中 的 原由 暂时 不 需要 知道 ， 记 录 方 法 ， 即 长 时 间 使 用 UDP 和 同一 主机 
通信 时 ， 可 以 使 用 connect 函数 来 进行 优化 自身 。 此 时 假设 两 台 主 机 
的 实际 功能 一 致 ， 既 接收 也 发 送 

o 发 送 端 : 


/* 前 方 高 度 一 致 ， 将 bind 函 数 替 换 为 */ 
connect(sock, (struct sockaddr *)&recv_host, sizeof(r 
ecv_host); // 将 对 方 的 IP 地 址 和 端口 号 信息 注册 进 UDP 的 套 接 字 中 ) 
while(1) /* 循环 的 发 送 和 接收 信息 */ 
{ 
size t read len = 0; 
/* 原先 使 用 的 sendto 函数 ， 先 择 改 为 使 用 write 函数 ， Win 
dows 平 台 为 send 函数 */ 
write(sock, mess, strlen(mess)):; /* send 
(sock, mess, strlen(mess), 0) FOR Windows Platform */ 
read_ len = read(sock, get mess, GET MAX-1); /* recv 
(sock, mess, strlen(mess)-1, 0) FOR Windows Platform */ 
get_mess[read len-1] = '\0'， 
printf("In Client like Host Recvive From Other Host 
: %s\Nn", get_mess); 


} 
/* 后 方 高 度 一 致 */ 


o 接收 端 : 


/* 前 方 一 致 ， 添加 额外 的 struct sockaddr_in send_host; 
并 添加 循环 ， 构 造 收发 的 现象 */ 
while(1) 
{ 


size t read len = 0 


中 = 


char sent_mess[15] "Hello Sender!"; /* 用 于 发 
送 的 信息 EA 
sendto(sock, mess, strlen(sent mess), 0, (struc 
t sockaddr *)&recv_host, sizeof(recv_host)); 
read_ len = recvfrom(sock, mess, 15, 0, (struct 
sockaddr *)&send host, &addr_len) 
mess[read_ len-1] = '\0'，; 
printf("In Sever like Host Recvive From other H 
ost : %s\n", mess); 
} 
/* 后 方 高 度 一 致 */ 
/* 
* 之 所 以 只 在 接收 端 使 用 connect 的 原因 ， 便 在 于 我 们 模拟 的 
是 客户 端 -服务 器 的 模型 ， 而 服务 器 的 各 项 信息 是 不 会 随意 变更 的 
* 但 是 客户 端 就 不 同 了 ， 可 能 由 于 ISP(Internet Server P 
rovider) 的 原因 ， 你 的 TP 地 址 不 可 能 总 是 固定 的 ， 所 以 只 能 
* 保证 在 客户 端 部 分 注册 了 服务 器 的 各 类 信息 ， 而 不 能 在 服 
务 器 端 注册 客户 端 的 信息 。 
* 当然 也 有 例外 ， 例 如 你 就 想 这 个 软件 作为 私密 软件 ， 仅 供 两 个 人 
使 用 ， 且 你 有 固定 的 IP 地 址 ， 那 么 ne ， 但 是 
* 一 定 要 注意 ， 只 要 有 一 点 信息 变动 ， 这 个 软件 就 可 能 无 法 正常 的 
收发 信息 了 。 
"7 


所 码 解 释 
o 故而 实际 上 ， 虽 然 前 方 的 表格 显示 ， UDP 似乎 并 没有 connect 的 使 用 
必要 ， 但 是 实际 上 还 是 有 用 到 的 地 方 。 
o 就 *nix 的 API 来 说 ，sendto 和 write 的 区 别 十 分 明显 ， 便 是 一 
人 目标 主机 的 各 类 信息 ， 而 后 者 则 不 需要 提供 。 同 样 的 
道理 recvfrom 和 read 也 是 如 此 。 
o 这 个 代码 只 是 做 演示 而 已 ， 所 以 将 代码 置 于 无 限 循环 当中 ， 现 实 中 可 以 自 
a 口 条 件 。 


以 上 是 UDP 的 一 些 简 单 说 明 ， 入 门 足 侨 ， 并 未 详细 叙述 某 些 函 
法 ， 而 是 用 实际 例子 来 体现 。 在 记录 TCP 之 前 ， 还 是 需要 讲 一 


shutdown 
e shutdown 与 close(closesocket ) 


o 首先 要 知道 ， 网 络 通信 一 般 而 言 是 双方 的 共同 进行 的 ， 换 而 言 之 就 是 双向 
， 一 个 方向 只 用 来 发 送 消息 ， 一 个 方向 只 用 来 读 取 消息 。 
o 这 就 导致 了 ， 在 结束 套 接 字 通信 的 时 候 ， 需 要 关闭 两 个 方向 的 通道 (暂时 叫 
它们 通道 )， 那 同时 关闭 不 行 吗 ? 可 以 啊 
m Close(sock); // closesocket(sock); FOR Windows PlatForm 
就 是 这 人 么 ee 
四 简单 的 通信 程序 或 者 单 向 通信 程序 这 么 做 的 确 无 其 大 碍 ， 但 是 万 一 在 
结束 通 Eee he 办 ? 
@ 假设 通信 和 结束， 客户 端 向 服务 器 发 送 "Thank you" 
@ 服务 器 需要 接收 这 个 信息 ， 之 后 才能 关闭 通信 
@ 问题 就 在 这 之 问 ， i 器 并 不 知道 客户 端 会 在 通信 结束 后 的 什么 
时 刻 传 来 信息 
四 所 以 我 们 选择 在 通信 完成 后 先 关闭 服务 器 的 发 送 通道 ( 写 流 
待 客户 端 发 来 消息 后 ， 关 闭 剩 下 的 接收 通道 ( 读 流 ) 


WW 
各 


o 发 送 端 : 


/* 假设 有 一 个 TCP 的 连接 ， 此 为 客户 端 */ 
write(sock, "Thank you", 10); 
close(sock); // 写 完 直接 关闭 通信 


o 接收 端 : 


/* 此 为 服务 器 */ 

/* 首先 关闭 写 流 */ 

shutdown(sock_c, SHUT_WR); 

read(sock _c, get mess, GET_ MAX); 

printf("Message : %s\n", get_mess); 

close(sock_c); 

close(sock_s); // 关闭 两 个 套 接 字 是 因为 TCP 服务 器 端的 需要 


， 后 续 会 记录 


o 代码 解释 
@ Shutdown 有 也 数 的 作用 就 是 可 选择 的 关闭 那个 方向 的 输出 
m int shutdown(int sock, int howto ) ， 
m Sock 代表 要 操作 的 套 接 字 
mm howto 有 几 个 选择 
m *Nix: SHUT_RD SHUT_WR SHUT_RDWR 
m Windows : SD RECEIVE SD _ SEND SD_BOTH 


. 程序 员 应 该 越 来 越 来 ， 做 的 事情 应 该 越 来 越 少 ， 但 是 能 达到 的 成 就 应 该 越 来 越 


. 在 IPv6 出 现 的 今天 ， 网 络 编程 已 经 开始 向 简洁 和 强大 人 靠近， 即便 是 身 为 底层 

语言 的 C 语 言 

.实际 上 由 于 C 语 言 并 没有 自己 的 网 络 库 ， 故 为 了 能 进行 网 络 编程 ， 不 得 不 依 

赖 于 系统 函数 ， 这 就 是 所 谓 的 系统 编程 ， 你 已 经 是 一 个 系统 程序 员 了 。 

. 而 系统 函数 随 着 时 代 的 变化 ， 正 在 不 断 完善 ， 增 加 (几乎 没有 废除 的 先例 ， 所 
以 不 用 担心 之 前 的 程序 0 

.相应 的 ， 由 于 以 前 的 网 络 编程 只 适合 于 |Pv4 的 地 址 ， 自 从 出 现 了 IPv6, 我 们 需 
要 一 套 全 新 的 方式 ， 正 好 他 来 了 


0x12- 套 接 字 编程 -2 


新 时 代 的 套 接 字 网 络 编程 


1. 首先 有 几 个 结构 体 ， 以 及 一 个 接口 十 分 重要 及 常 
o struct sockaddr_in6 : 代表 的 是 IPv6 me 已 
o struct addrinfo :这 是 一 个 通用 的 结构 体 ， 里 面 可 以 存储 IPv4 或 
IPv6 类 型 地 址 的 信息 
o getaddrinfo : 这 是 一 个 十 分 方便 的 接口 ， 在 上 述 UDP 程序 中 许多 手 
动 填写 的 部 分 ， 都 能 够 省 去 ， 有 该 函数 替 我 们 完成 
2. 改写 一 下 上 方 的 例子 


o 接收 端 : 


int sock; /* 套 接 字 */ 

socklen_t addr_len; /* 发 送 端的 地 址 长 度 ， 用 于 recvfrom 
S74 

char mess[15]; 

char get_mess[GET_MAX]; /* 后 续 版 本 使 用 */ 

struct sockaddr_in host _ v4; /* IPV4 地 址 */ 

struct sockaddr_in6 host _ v6; /* IPV6 地 址 */ 

struct addrinfo easy_ to use; /* 用 于 设 定 要 获取 的 信息 以 及 
如 何 获取 信息 */ 

struct addrinfo *result,; /* 用 于 存储 得 到 的 信息 (需要 注 
意 内 存 泄露 ) */ 

struct addrinfo * p; 


/* 准备 信息 */ 

memset(&easy_ to use, 0, sizeof easy_ to use); 

easy_to_use.ai family = AF_UNSPEC; /* 告诉 接口 ， 我 现在 

还 不 知道 地 址 类 型 */ 

easy_to_use.ai flags = AI PASSIVE; /* 告诉 接口 ， 稍 后 7 
你 ” 帮 有 我 填写 我 没 明确 指定 的 信息 */ 

easy_to_use.ai socktype = SOCK_DGRAM; /* UDP 的 套 接 字 

/* 其 余 位 都 为 0 */ 


/* 使 用 getaddrinfo 接口 */ 


getaddrinfo(NULL, argv[1], &easy to use, &result); / 
* argv[1] 中 存放 字符 串 形式 的 端口 号 */ 


/* 创建 套 接 字 ， 此 处 会 产生 两 种 写法 ， 但 更 保险 ， 可 靠 的 写法 是 如 此 
0 

/* 旧式 方法 

* sock = socket(PF_INET, SOCK DGRAM, 0); 

/* 把 IP 和 端口 号 信息 绑 定 在 套 接 字 上 */ 

/* 旧式 方法 

* memset(&recv_host, 0, sizeof(recv_host)); 

* recv_host.sin family = AF_INET， 

* recv_host.sin addr.s addr = htonl(INADDR_ANY);/* 
接收 任意 的 IP */ 

* recv_host.sin port = htons(6000); /* 使 用 6000 端口 
0 

* bind(sock, (struct sockaddr *)&recv_host, sizeof( 
recv_host ) ) ， 

A 


for(p = result; p != NULL; p = p->ai_next) /* 该 语法 
需要 开启 -std=gnu99 标准 */ 
{ 
sock = socket(p->ai family, p->ai socktype, p->ai_ 
protocol); 
if(sock == -1) 
continue; 
if(bind(sock, p->ai addr, p->ai addrlen) == -1) 
{ 
close(sock); 
continue; 
} 
break; /* 如 果 能 执行 到 此 ， 证 明 建 立 套 接 字 成 功 ， 套 接 字 绑 定 
成 功 ， 故 不 必 再 尝试 。 */ 
} 


/* 进入 接收 信息 的 状态 */ 

//recvfrom(sock, mess, 15, ©0, (struct sockaddr *)&se 
nd_host, &addr_len); 

switch(p->ai_socktype) 


case AF_INET : 


host_v4, 


addr_len = sizeof host v4; 

recvfrom(sock, mess, 15, ©0, (struct Sockaddr *)& 
&addr_len); 

break; 


case AF_INET6 : 


host_v6, 


addr_len = sizeof host_v6 

recvfrom(sock, mess, 15, ©0, (struct sockaddr *)& 
&addr_len); 

break; 


default: 


} 


break; 


freeaddrinfo(result); /* 释放 这 个 空间 ， 由 getaddrinfo 分 


配 的 */ 


/* 接收 完成 ， 关 闭 套 接 字 */ 
Close(Sock ) ; 


代码 解释 : 


@ 首先 解释 几 个 新 的 结构 体 


struct addrinfo 这 个 结构 体 的 内 部 顺序 对 于 *nix 和 
Windows 稍 有 不 同 ， 以 *nix 为 例 


struct addrinfo{ 

int al flags; 

int al family; 

int ai_ socktype; 

int ai protocol; 

socklen t ai addrlen; 

struct sockaddr * ai addr; /* 存放 结果 地 址 的 地 
7 

char * ai canonname; /* 忽略 它 吧 ， 很 长 一 段 时 间 
你 无 须 关注 它 */ 

struct addrinfo * ai_next; /* 一 个 域名 /IP 地 址 
可 能 解析 出 多 个 不 同 的 IP */ 
}; 


=: 


Vil. 
viii. 


Xii. 
Xiii. 


XiV. 


XV. 


X. 


ai_family 如 果 设 定 为 AF_UNSPEC 那么 在 调用 
getaddrinfo 时 ， 会 自动 帮 你 确定 ， 传 入 的 地 址 是 什么 
型 的 

ai flags 如 果 设 定 为 AI_PASSIVE 那么 调用 
getaddrinfo 且 向 其 第 一 个 参数 传 入 NULL 时 会 自动 绑 
定 自身 IP， 相 当 于 设 定 INADDR_ANY 

ai_socktype 就 是 要 创建 的 套 接 字 类 型 ， 这 个 必须 明确 声 
明 ， 系 统 没 法 预 判 (日 后 人 工 智能 说 不 定 呢 ?) 

ai_protocol 一 般 情 况 下 我 们 设置 为 0 ， 含 义 可 以 自行 
查找 ， 例 如 MSDN 或 者 UNP 

ai_addr 这 里 保存 着 结果 ， 可 以 通过 调 

用 getaddrinfo 之 后 的 第 四 个 参数 获得 。 

ai addrlen 同上 

ai_next 同上 

getaddrinfo 强大 的 接口 函数 


int getaddrinfo(const char * node, const char 
* service, 
const struct addrinfo * hin 
ts, struct addrinfo ** res); 


通俗 的 说 这 几 个 参数 的 作用 

node 便 是 待 获取 或 者 待 绑 定 的 域名 或 是 IP， 也 就 是 说 ， 
这 里 可 以 直接 填写 域名 ， 由 操作 系统 来 转换 成 IP 信息 ， 或 
者 直接 填写 IP 亦 可 ， 是 以 字符 串 的 形式 

service 便 是 端口 号 的 意思 ， 也 是 字符 串 形式 

hints 通俗 的 来 说 就 是 告诉 接口 ， 我 需要 你 反馈 哪些 信息 
给 我 (第 四 个 参数 )， 并 将 这 些 信 息 填 写 到 第 四 个 参数 里 。 
res 便 是 保存 结果 的 地 方 ， 需要 注意 的 是 ， 这 个 结果 在 
API 内 部 是 动态 分 配 内 存 了 ， 所 以 使 用 完 之 后 需要 调用 另 一 
个 接口 ( freeaddrinfo ) 将 其 释放 

实际 上 对 于 现代 的 ” 套 接 字 编程 而 言 ， 多 了 几 个 新 的 存储 
IP 信息 的 结构 体 ， 例 如 struct sockaddr_in6 和 
struct sockaddr_storage 等 。 


四 其 中 ， 前 者 是 后 者 的 大 小 上 的 子 集 ， 即 一 个 struct 
storage 一 定 能 够 装 下 一 个 struct sockaddr_in6 ， 
具体 (实际 上 根本 看 不 到 有 意义 的 实现 ) 


struct sockaddr_in6{ 
U_int16_t sin6_ family; 
U_int16 t sin6 port,; 
u_int32_t sin6 flowinfo; /* 暂时 忽略 它 * 


struct in6 addr sin6 addr; /* IPV6 的 地 
址 存放 在 此 结构 体 中 */ 
U_int32 t sin scope_id; /* 暂时 忽略 它 * 
/ 
}; 
struct in6 addr{ 
unsigned char s6 addr[16]; 


struct Sockaddr storaget 
sa_family t ss family; /* 地 址 的 种 类 */ 
char ”ss_pad1[_SS PAD1SIZE]; /* 从 此 处 
开始 ， 不 是 实现 者 几乎 是 没 办 法 理解 */ 


int64 t _ ss align; /* 从 名 字 
上 可 以 看 出 大 概 是 为 了 兼容 两 个 不 同 IP 类 型 而 做 出 的 
妥协 */ 


char ss_pad2[_SS_PAD2SIZE]; /* 隐藏 了 
实际 内 容 ， 除 了 IP 的 种 类 以 外 ， 无 法 直接 获取 其 他 的 
任何 信息 。 */ 

/* 在 各 个 *nix 的 具体 实现 中 ， 可 能 有 不 同 的 实 


现 ; 例 如 ` ss pad1” ， ` ss pad2”， 可 能 合 
nad 
}; 


在 实际 中 ， 我 们 往往 不 需要 为 不 同 的 |P 类 型 声明 不 同 的 
存储 类 型 ， 直 接 使 用 struct sockaddr_storage 就 
可 以 ， 使 用 时 直接 强制 转换 类 型 即 可 


XVi， 改 写 上 方 接收 端 例子 中 ， 进 入 接收 信息 的 状态 部 分 


/* 首先 将 多 于 的 变量 化 简 */ 

// - struct sockaddr_ in host_v4; /* IPV4 地 址 
“7 

// - struct sockaddr_in6 host v6; /* IPV6 地 
址 

struct sockaddr_storage host ver any; /x* + 任 
意 类 型 的 IP 地 址 */ 


/* 进入 接收 信息 的 状态 部 分 */ 

recvfrom(sock, mess, 15, ©0, (struct Sockaddr 
*)&host_ver_any，&addr_len); /* 像 是 又 回 到 了 只 
有 IPV4 的 年 代 */ 


xvii， 补 充 完整 上 方 对 应 的 发 送 端 代码 


int sock; 

const char* mess = "Hello Server!"; 

char get_mess[GET_MAX]; /* 后 续 版 本 使 用 */ 
struct sockaddr_storage recv_ host; /* - Stru 
ct sockaddr_in recv host; */ 

struct addrinfo tmp, *result; 

struct addrinfo *p; 

socklen_t addr_len; 


/* 获取 对 端的 信息 */ 

memset(&tmp，0，Sizeof tmp ) ， 

tmp.ali family = AF_UNSPEC ， 

tmp.ai_flags = AI_PASSIVE; 

tmp.ai_ socktype = SOCK_DGRAM; 
getaddrinfo(argv[1], argv[2], &tmp, &result) 
; /* argv[1] 代表 对 端的 IP 地 址 ，argv[2] 代表 对 端 
的 端口 号 */ 


/* 创建 套 接 字 */ 
for(p = result; p != NULL; p = p->ai next) 
{ 
sock = socket(p->ai family, p->ai_socktype 
,; bp->ai _ protocol); /* - sock = Socket(PF_INE 
T, SOCK_DGRAM, 0); */ 


if(sock == -1) 
continue; 
/* 此 处 少 了 绑 定 bind 函数， 因为 作为 发 送 端 不 需要 讲 
对 端的 信息 绑 定 到 创建 的 套 接 字 上 。 */ 
break; /* 找到 就 可 以 退出 了 ， 当 然 也 有 可 能 没 找 到 ， 
那么 此 时 p 的 值 一 定 是 NULL */ 


} 
if(p == NULL) 
{ 
/* 错误 处 理 */ 
} 


/* -// 设 定 对 端 信息 

memset(&recv_host, ©0, sizeof(recv_host)); 
recv_host.sin_ family = AF_INET; 
recv_host.sin addr.s addr = inet_addr("127.0 


OI) 
recv_host.sin_port = htons(6000 ) ; 
党 


/* 发 送信 息 */ 

/* 在 此 处 ， 发 送 端的 ITP 地 址 和 端口 号 等 各 类 信息 ， 随 着 这 
个 函数 的 调用 ， 自 动 绑 定 在 了 套 接 字 上 */ 

sendto(sock, mess, strlen(mess), 0, p->ai ad 
dr, p->ai addrlen); 

大 二 国人 

freeaddrinfo(result); /* 实际 上 这 个 函数 应 该 在 使 
用 完 result 的 地 方 就 予以 调用 */ 

close(sock); 


xviii， 到 了 此 处 ， 实 际 上 是 开 了 网 络 编程 的 一 个 初始 ， 解 除了 现代 
的 UDP 最 简单 的 用 法 (甚至 还 算 不 上 完整 的 使 用 )， 但 是 确实 
是 进行 了 交互 。 


# 


。 首先 介绍 UDP 并 不 是 因为 它 简单 ， 而 是 因为 他 简洁 ， 也 不 是 因为 它 不 重要 ， 
相反 他 其 实 很 强大 。 
。 永远 不 要 小 看 一 个 简洁 的 东西 ， 就 像 C 语 言 


。 下 一 篇 将 详细 记录 UDP 的 相关 记录 

在 这 之 前 

。 首先 还 是 科普 记录 一 下 协议 的 知识 。 

。 阮 一 峰 的 博客 : 互联 网 协议 入 门 (一 ) 

e 阮 一 峰 的 比 克 : 互联 网 协议 入 门 (二 ) 

。 上 述 两 篇 文章 十 分 浅显 易 懂 ， 十 分 符合 科普 二 字 ， 下 方 将 对 上 述 两 个 文章 进 4 
适当 的 补充 。 


ARP 协议 


。 最 简便 的 方法 就 是 找 一 个 有 WireShark 软件 或 者 tcpdump 的 *nix 平台 ， 
前 者 你 可 以 选择 随意 监听 一 个 机 器 ， 不 多 时 就 能 看 见 ARP 协议 的 使 用 ， 因 为 
它 使 用 的 大 频繁 了 。 

e。 对 于 ARP 协议 而 言 ， 首 先 对 于 一 台 机 器 A， 想 与 机 器 B 通信 ，( 假 设 此 时 机 器 

A 的 高 速 缓存 区 (操作 系统 一 定时 间 更 新 一 次 ) 中 没有 机 器 B 的 缓存 ) ， 

o 那么 机 器 A 就 向 广播 地 址 发 出 ARP 请求， 如 果 机 器 B 收 到 了 这 个 请 求 ， 就 
将 自己 的 信息 (IP 地 址 ，MAC 地 址 ) 填 入 ARP 应 答 中 ， 再 发 送 回去 就 行 。 
o 上 述 中 ，ARP 请 求 和 ARP 应答 是 一 种 报 文 形式 的 信息 ， 是 ARP 协 议 所 

附带 的 实现 产品 ， 也 是 用 于 两 台 主 机 之 问 进行 通信 。 
o 这 是 当 机 器 A 和 机 器 B 同 处 于 一 个 网 络 的 情况 下 ， 可 以 借 由 本 网 络 段 的 广 
播 地 址 发 送 请 求 报 文 。 

对 于 不 同 网 络 段 的 机 器 A 与 机 器 B 而 言 ， 想 要 通过 ARP 协 议 获取 MAC 地 址 
， 就 需要 借助 路 由 器 的 帮助 了 ， 可 以 想象 一 下 ， 路 由 器 (可 以 不 止 一 个 ) 在 中 

间 ， 机 器 A 和 机 器 B 分 别 在 这 些 路 由 器 的 两 边 ( 即 在 不 同 子 网 ) 

o 由 于 人 A 和 B 不 在 同一 个 子 网 内 ， 所 以 没 办 法 通过 通过 直接 通过 广播 到 达 ， 
但 是 有 了 路 由 器 ， 就 能 进行 ARP 代 理 的 操作 ， 大 概 就 是 将 路 由 器 当成 机 
器 B ， 人 A 向 自己 的 本 地 路 由 器 发 送 ARP 请 求 

o 之 后 路 由 器 判断 出 是 发 送 给 B 的 ARP 请 求 ， 又 正好 B 在 自己 的 管辖 范围 之 
内 ， 就 把 自己 的 硬件 地 址 写 入 ARP 应 答 中 发 回去 ， 之 后 再 有 A 向 B 的 数 
据 ， 就 都 是 A 先 发 送 给 路 由 器 ， 再 经 由 路 由 器 发 往 B 了 

o 一 篇 比较 好 的 资源 是 Proxy ARP 


ICMP 


@ 这 个 协议 比较 重要 ， 后 方 的 概念 也 会 涉及 。 


O 〇 


请 求 应 答 报 文 和 差错 报 文 ， 重 点 在 于 差错 报 文 。 

请 求 应 答 报 文 在 ICMP 的 应 用 中 可 以 拿 来 查询 本 机 的 子 网 掩 码 之 类 的 信 
息 ， 大 致 通过 向 本 子 网 内 的 所 有 主机 发 送 该 请 求 报 文 (包括 自己 ， 实 际 上 就 
是 广播 )， 后 接收 应 答 ， 得 到 信息 

差错 报 文 在 后 续 中 会 有 提 到 ， 这 里 需要 科普 一 二 。 

首先 对 于 差错 报 文 的 一 大 部 分 是 关于 XXX 不 可 达 的 类 型 ， 例 如 主机 不 可 
达 ， 端 口 不 可 达 等 等 ， 每 次 出 现 错误 的 时 候 ，|ICMP 报 文 总 是 第 一 时 间 返 
回 给 对 端 ， ( 它 一 次 只 会 出 现 一 份 ， 否 则 会 造成 网 络 风 暴 )， 但 是 对 端 是 否 
能 够 接收 到 ， 就 不 是 发 送 端的 问题 了 。 

这 点 上 套 接 字 的 类 型 有 着 一 定 的 联系 ， 例 如 UDP 在 unconnected 状 
态 下 是 会 忽略 ICMP 报 文 的 。 而 TCP 因为 总 是 connected 的 ， 所 以 对 
于 ICMP 报 文 能 很 好 的 捕捉 。 

ICMP 差 错 报 文中 总 是 带 着 出 错 数据 报 中 的 一 部 分 丨 实数 据 ， 用 于 配对 。 


注意 ， 对 于 UDP 而 言 ， 只 有 connected 状态 下 ， 才 会 收 到 ICMP 报 文 ， 可 
以 通过 errno == ECONNREFUSED 来 确定 ， 具 体 来 说 就 是 在 你 发 送 完 本 次 数据 


之 后 ， 的 下 一 次 系统 调用 时 会 有 这 个 想 想 ， 代 表 你 的 小 心 没有 被 送 到 


| 对方 手 


里 ， 而 是 被 对 方 丢弃 了 。 


在 没有 一 个 完备 的 思路 以 及 良好 的 设计 之 前 ， UDP 是 一 个 十 分 艰难 的 挑战 ， 只 
有 在 TCP 实在 无 法 满足 我 们 的 性 能 需求 时 ， 我 们 才 来 重新 考虑 UDP 。 


0x13- 套 接 字 编 程 -HTTP 服 务 器 (人 1) 


这 里 不 是 百科 全 书 ， 所 以 只 会 用 最 简单 ， 最 明了 的 语言 ， 来 讲 最 实用 的 TCP 纺 
程 。 


这 回 是 在 Linux 下 开发 ， 而 不 是 Windows 


TCP 


e。 圆 回春 素 般 的 喂 完 UDP 的 基本 应 用 ， 以 及 一 些 API 的 使 用 ， 不 再 教 述 TCP 的 使 
用 ， 其 实 是 很 多 我 也 不 懂 ，( 逃 。 

@ 但 是 ， 对 于 API 我 一 向 抱 以 用 多 少 学 多 少 知 多 少 的 态度 ， 人 生 如 戏 ， 重 在 看 戏 
啊 。 

@ 如 果 想 要 查找 具体 的 完整 的 API 可 以 先 去 查 ，UNIX 网 络 编程 : 卷 1 + Linux 
Man 手 册 ， 其 中 前 者 有 一 些 部 分 实际 上 已 经 过 时 (内 核 版 本 跟 不 上 )。 更 不 用 说 
后 续 加 入 LinuxX 的 一 些 接口 ， 例 如 epoll 。 但 是 其 他 的 接口 还 是 可 以 参考 
的 ， 并 且 十 分 的 详细 。 

e。 TCP， 这 是 一 个 极其 复杂 的 协议 ， 说 复杂 是 因为 在 这 几 十 年 的 发 展 中 ， 对 其 的 
ee 到 令 人 发 指 ， 于 此 而 言 ， 虽 说 即便 不 知道 这 些 优化 也 是 可 以 编写 程 

,但 是 建议 还 是 能 够 熟悉 一 下 流程 (两 端 交互 的 过 程 ) 
< 拥塞 控制 ， 滑 动 窗口 机 制 。 
o 对 于 前 两 个 而 言 ， 我 个 人 有 不 同 见 解 ， 于 为 什么 是 三 次 握手 ， 而 不 是 其 他 
次 数 ， 但 是 由 于 并 不 一 定 被 接受 ， 所 以 我 不 在 这 里 写 入 ， 有 兴趣 的 可 以 
Emali 我 一 起 讨论 ， 在 面试 的 时 候 ， 我 也 是 会 和 面试 官 讨论 这 个 问题 ， 但 


一 直 没 有 满意 的 答案 SS 


HTTP 


e。 说 了 贯穿 本 章节 的 是 一 个 HTTP 服 务 器 ， 如 此 就 一 定 要 说 说 HTTP 协 议 了 ， 如 
果 说 前 面 的 TCP 即 使 你 不 懂 它 的 原理 也 能 编写 一 个 能 运行 且 效 率 不 错 的 TCP 程 
序 的 话 ， 那 么 想 写 一 个 HTTP 服 务 器 ， 你 要 是 不 懂 HTTP 协议， 简直 是 寸步 难 
行 。 

。 最 权威 的 英 过 于 《HTTP 权 威 指南 》， 你 可 别 想 着 去 看 HTTP 的 标准 草案 了 ， 
那 丨 是 神 鬼 难 懂 。 当 然 这 本 书 亦 是 一 部 大 块头 ， 可 以 选择 在 网 上 找 一 些 HTTP 
协议 的 资料 来 补充 一 些 基本 知识 ， 再 用 这 本 大 块头 来 检索 自己 需要 了 解 的 地 


方 。 
e 简单 说 一 下 HTTP 协议 
o As TCP 协 议 在 应 用 层 的 一 种 封装 ， 换 名 话说 HTTP 服 
器 实质 上 还 是 一 个 TCP 程序 ， 只 不 过 TCP 协议 已 经 被 操作 系统 实现 
留 出 借口 来 给 你 调用 ， 而 HTTP 协 议 则 是 完全 需要 你 自己 编写 。 
o 所 谓 协 议 就 是 双方 都 需要 遵守 的 一 个 规则 ， 所 以 HTTP 协议 实质 上 是 一 种 
非 实 际 的 东西 ， 最 主要 的 还 是 包括 了 一 个 状态 机 ， 称 为 HTTP 状 态 机 ， 
它 的 作用 就 是 解析 /生成 HTTP 报 文 ， 不 必 太 过 注意 这 些 名 词 ， 最 开始 想 
写 这 个 程序 的 时 候 ， 也 没有 太 多 顾虑 这 种 名 词性 的 东西 。 
o 所 有 的 名 词 都 是 为 了 更 好 的 抽象 一 件 事物 ， 就 好 比 数 学 上 的 各 种 符号 ， 其 
实 本 没 必 要 存在 ， 但 为 了 抽象 简单 的 表达 ， 符 号 就 应 运 而 生 。 所 以 当 你 理 
解 不 了 一 个 符号 的 时 候 ， 就 跳 过 他 ， 因 为 你 总 es |] 如 
符号 对 应 的 公式 /展开 式 ， 符 号 对 应 的 定理 ， 定 理 对 应 的 实际 例子 )， 
比 他 更 加 的 详细 且 好 理解 ， 这 是 我 三 年 学 习 数 学 总 结 出 来 的 经 验 。 
o 扯 了 一 些 没 用 的 ， 回 归 正 题 
@ 协议 版 本 号 


o 主流 的 就 是 HTTP/1.0,HTTP/1.1， 其 他 的 在 编写 本 程序 时 不 必 太 在 意 
o 需要 了 解 的 是 这 两 个 版 本 好 的 一 些 功能 区 别 ， 例 如 最 广为人知 
的 Connection: 的 默认 属性 


e 方法 
o GET 
o POST 
o HEAD 
@ 实际 上 ， 在 一 般 的 服务 器 实现 中 ， 也 只 需要 实现 这 三 个 方法 就 够 了 ， 特 别 


是 前 两 者 比较 重要 ， 将 以 GET 进行 程序 的 方法 编写 ， 有 兴趣 的 可 以 自己 
实现 POST 方法 ， 我 的 源 代码 0 ， 但 并 不 打算 继续 完 
成 oO 


有 图 有 丨 相 


GET / HTTP/1.1\r\n <--- 这 是 状态 行 ， 包 括 一 个 请 求 方法 ， 资 源 ， 
协议 版 本 

Host: www.wushxin.top\r\n <-- 这 是 属性 头 ， 

Connection: keep-alive\r\n <-- ... 

NrxNn <-- 一 直到 空 行 结束 


e。 这 是 最 简单 的 HTTP 请 求 报 文 ， 整 个 报 文 的 意思 是 请 求 资源 根 目录 (注意 ， 是 资 
源 根 目 录 ) 下 的 资源 (默认 请 求 根 目 录 且 不 写 什 么 资源 就 返回 index.html )， 
并 希望 与 服务 器 保持 连接 。 


这 里 的 保持 连接 和 TCP 协议 中 的 保持 连接 不 一 样 ， 具 体 可 以 去 查找 资料 ， 简 
a etn en 
接 。 可 以 把 它 当 成 不 靠 谱 连 接 ， 但 是 表面 工作 还 是 要 做 的 。 


有 图 有 昌 相 

200 OK\r\n <-- 状态 行 ， 包 括 一 个 状态 码 ， 状 态 详情 
Host: www.wushxin.top\r\n <-- 属性 ， 

Connection: close\r\n < 

Content-Length: 78\r\n <-- 这 个 属性 ， 代 表 空 行 后 面 数据 有 多 少 
NrxNn <-- 直到 空 行 


<html><body><p>Hello, That is the Resource which you Request!</b 
ody></html> 


e。 这 是 很 简单 的 一 种 返回 报 文 ， GOMES OEE 属性 在 这 里 特别 重要 ! 绝对 
不 能 缺少 ， 它 给 对 端 一 种 信息 就 是 ， 这 个 报 文 的 结束 位 置 在 哪里 。 


末 的 一 个 标 


行 
分 割 。 


. Co ， 每 行 的 末尾 都 有 \r\n 这 是 HTTP 协 议 用 来 表达 
， 而 有 全 ，HTTP 协 议 的 头 部 和 文本 部 有 一 个 空 行 \r\n 来 进行 


e@ 以 上 就 是 所 有 我 想 要 介绍 的 HTTP 协 议 的 内 容 ， 有 些 零 散 ， 还 是 建议 去 查找 一 
些 资 料 后 再 来 往 下 看 。 


详细 计划 
e。 上 面 的 内 容 看 起 来 有 些 零碎 ， 但 是 做 一 个 程序 ， 还 是 需要 理 一 理 自己 的 思路 。 
@ 首先 ， 我 们 的 目的 是 做 出 一 个 并 发 HTTP 服 务 器 ， 会 涉及 到 的 知识 点 : 

1. HTTP 协议 的 实现 

2. TCP 的 Socket 编 程 ( 即 套 接 字 编程 )， 所 谓 网 络 编程 

3. 多 线程 

4. epoll 机 制 ， 暂 时 不 要 管 select 和 poll 这 两 个 相似 功能 的 机 制 
5 


m FastCGI 的 实现 (作为 扩展 ， 有 兴趣 的 在 最 后 可 以 去 尝试 ， 资 
源 :FastCGI 规 范 ) 


并 发 HTTP 服 务 器 (1) 


179 


0x14- 套 接 字 编 程 -HTTP 服 务 器 (2) 


HTTP 服 务 器 的 结构 


e。 HTTP 服务器 本 质 上 就 是 一 个 TCP 的 接收 端 程序 
e@ 但 凡 一 个 正常 的 TCP 接收 端 程序 ， 都 逃 不 过 那 几 个 流程 : 
o 创建 监听 socket -> 绑 定 端口 ，IP -> 监听 socket -> 接受 新 连接 -> 处 
理 读 写 .,. -> 关闭 完成 的 连接 
o 其 中 前 三 步 比较 固定 ， 最 多 对 这 个 监听 用 的 socket ， 进 行 一 些 优化 处 
理 ， 设 置 一 些 属 性 之 类 的 ， 但 那 都 是 国定 模式 ， 想 想 就 能 明白 。 硬 要 说 重 
要 的 地 方 ， 也 就 是 在 于 是 否 把 socket 设 为 非 阻塞 (non-blocking) 了 。 
o 后 面 几 步 ， 每 个 都 是 很 重要 的 环节 ， 需 要 细 细 设计 才 行 


所 谓 非 阻 塞 ， 我 还 是 不 班 门 弄 伯 了， 请 移 步 UNIX 网 络 编程 - 卷 1- 中 文 -第 三 版 
127 页 (美文 版 160 页 ) 的 图 6-6 ， 清 楚 的 对 比 了 ， 阻 塞 ， 非 阻塞 ， 异 步 ，JO 复 
用 的 区 别 和 含义 。 十 分 建议 写 网 络 程序 之 前 ， 去 把 这 本 书 的 某 些 章节 大 致 过 

遍 o 


@ 对 于 这 章节 需要 写 的 这 个 服务 器 而 言 ， 采 用 的 是 经 典 且 流行 的 IJO 复 用 + 非 阻 塞 
套 接 字 (socket)+ 多 线程 (线程 池 ) 结构 。 
@ 呐 ， 又 出 现 一 个 新 的 知识 点 ，1/O 复 用 ， 这 是 什么 鬼 。 


IO 复 用 


e 我 给 一 个 不 太 严密 的 解释 ， 那 就 是 将 你 这 个 程序 需要 等 待 的 地 方 ， 集 中 起 来 
e@ 打 个 比方 : 
o 假设 有 100 个 新 连接 ， 被 你 的 监听 套 接 字 给 成 功 接受 ( accept() ) 了 
o 这 时 候 并 不 是 所 有 新 连接 都 立刻 有 数据 可 以 读 ， 那 此 时 你 有 两 种 选择 : 阻 
塞 ， 非 阻塞 。 但 不 论 是 哪 一 种 都 会 导致 同一 个 结果 
mg 阻塞 : 那 假 设 你 只 有 一 个 线程 处 理 这 100 个 连接 ， 万 一 要 是 正好 处 理 
到 这 个 暂时 没有 数据 的 连接 ， 就 要 一 直 等 待 它 的 数据 到 来 ， 后 面 的 几 
十 个 连接 都 要 闲 着 ; 假设 有 多 个 线程 同时 处 理 ， 理 由 还 是 一 样 ， 换 汤 
不 换 药 ， 而 且 难 道 你 还 能 开 100 个 线程 去 处 理 吗 ? 那 如 果 更 多 的 连接 


呢 ? 
ms 非 阻塞 : 比 阻 塞 看 起 来 稍微 好 一 些 ， 因 为 如 果 没 有 数据 到 来 的 话 ， 那 
就 直接 跳 过 这 个 连接 ， 直 接 去 处 理 下 一 个 连接 了 ， 但 是 你 想 想 ， 这 不 


就 是 遍历 了 吗 ? 万 一 连接 量 一 大 ， 人 假设 上 万 ， 而 且 只 有 少数 的 几 个 连 


接 有 数据 活跃 ， 这 ee 
力 ? 那 么 A 

o 这 时 候 喜 欢 偷懒 的 程序 员 ， 自 然 就 不 愿意 了 ， 于 是 考虑 是 否 可 以 有 一 个 ， 
让 我 们 可 以 在 单个 线程 的 情况 下 还 能 够 只 处 理 那 些 活跃 的 连接 ? 

o 这 时 候 出 现 了 所 谓 的 /QO 复 用 技术 ， 说 是 技术 ， 因 为 它 使 用 的 还 是 同步 型 
的 操作 ( read，write )， 只 不 过 套 接 字 设 为 非 阻塞 的 了 。 

o Linux 平 台 下 的 epoll ,Unix( 包 括 Mac) 平 台 下 的 kqueue ,Windows 平 台 
下 的 IOCP ， 各 平台 通用 的 select ，poll ， 还 有 几 个 历史 实现 就 不 次 
述 了 。 

o 最 后 这 两 个 select ，poll 在 活跃 连接 明显 少 于 总 连接 数 的 情况 下 ， 性 

能 比 前 三 个 要 差 许多 ， 故 本 章 使 用 的 是 epoll ,( 当 然 还 有 资料 比较 多 的 原 
因 啦 
e 说 说 epoll 的 工作 


o 首先 它 帮 我 们 管理 着 所 有 的 套 接 字 ， 用 来 监听 这 些 套 接 字 哪 些 有 了 数据 ， 
就 返回 谁 。 
o 将 所 有 等 待 ， 阻 塞 都 集中 在 了 一 个 地 方 ， 0 epoll _wait() 调用 上 
。 而 且 可 以 针对 不 同 的 事件 进行 不 同 的 监听 ， 这 就 是 事件 驱动 这 种 模式 的 由 
来 
。 事件 驱动 


o 简单 来 说 ， 就 是 针对 某 种 事件 进行 触发 的 一 种 编程 模式 

o 具体 来 说 ， 假 设 你 在 网 络 编程 ， 正 在 处 理 一 个 套 接 字 ， 由 于 TCP 是 全 双 工 
的 ， 意 味 着 这 个 TCP 套 接 字 是 可 读 可 写 ， 问 题 来 了 ， 什 么 时 候 可 读 ， 什 么 
时 候 可 写 呢 ? 这 就 延伸 出 了 事件 ， 读 事件 ， 写 事件 ， 错 误 事 件 等 

o 可 以 通过 epoll clt() 来 设置 要 监听 的 事件 ， 当 然 也 可 以 同时 监听 多 个 
事件 ， 看 你 的 设计 了 。 

@ 具体 的 EL 接口 的 详细 介绍 ， 可 以 直接 在 Linux 上 ， 使 用 man epoll 进行 
查看 手册 ， 这 是 基本 功 。 


o epoll create , epoll ctl , epoll wait 


服务 器 结构 


及 


e@ 继续 回 到 服务 器 结构 

e。 上 面 简单 的 讲述 了 一 下 什么 是 UVO 复 用 ， 以 及 将 会 用 到 的 具体 实现 epo11 。 那 
具体 说 一 下 ， 整 个 程序 的 流程 

e。 还 是 老 规矩 ， 写 程序 之 前 要 先 构思 ， 自 己 在 纸 上 画 一 画 ， 大 概 的 流程 是 什么 


e。 问题 : 想 要 完整 处 理 一 个 HTTP 请 求 ， 需 要 哪些 步骤 ? 
1. 解析 HTTP 请 求 报 文 
2. 创建 HTTP 回 复 报 文 
e。 逻辑 就 这 么 简单 啊 ， 但 是 加 上 细节 部 分 ， 就 会 稍微 麻烦 一 些 了 : 
o 完整 地 从 套 接 字 中 ， 读 取 HTTP 请 求 报 文 
o 解析 HTTP 请 求 报 文 ， 并 判断 其 有 效 性 
o 生成 HTTP 回复 报 文 
o 完整 地 通过 对 应 套 接 字 ， 发 送 给 请 求 者 。 
。 在 这 里 我 假设 ， 你 已 经 对 TCP 编 程 的 模型 很 熟悉 了 ， 不 熟 的 可 以 去 顶部 看 看 再 
回来 
o 并 发 服务 器 的 关键 点 就 在 于 


四 高 效 且 正确 地 接收 尽 可 能 多 的 连接 
四 高 效 且 正确 地 处 理 尽 可 能 多 的 连接 


上 四 以 上 忽略 了 安全 性 
o 该 如 何 设 计 ? 
四 让 某 个 epo11 用 来 服务 于 接收 新 连接 这 个 环节 ( accept ) 
四 让 某 些 epo11 用 来 处 理 这 些 新 连接 的 事务 。 
四 这 样 理论 上 我 们 既 发 挥 了 单 核 的 极限 (epol)， 又 用 上 了 多 核 的 优势 (多 
个 epol1l ) 
o 更 具体 的 呢 ? 
@ 在 主线 程 里 使 用 单个 epoll 来 处 理 ， 监 听 套 接 字 的 读 事件 ， 也 就 是 
接受 新 连接 
m 再 开 几 个 线程 epo11 ， 用 来 平分 处 理 这 些 新 连接 。 
这 样 也 就 是 网 络 编 程 的 一 整个 流程 ， 如 果 看 到 这 里 你 已 经 大 概 有 了 一 个 程 
序 思 路 ， 实 际 上 就 已 经 达到 目的 了 ， 接 下 来 就 是 直接 上 手 代 码 就 行 
还 是 迷 迷 糊糊 的 ， 就 一 步 一 步 跟 着 我 ， 写 出 这 个 服务 器 ， 会 大 有 脾 益 。 


oO 


oO 


小 经 验 ， 在 编程 中 ， 读 往往 比 写 要 复杂 许多 。 在 网 络 编程 里 面 亦 是 。 


e。 有 图 有 监 相 ， 项 望 能 够 自己 


也 | 
[e] 





socket0 bind() 


@ 现在 大 致 有 了 思路 ， 可 以 整理 整理 自己 接 下 来 该 干什么 了 


环境 准备 


e 99% 的 中 国 大 学 学 生 的 操作 系统 ， 应 该 都 是 Windows 或 者 Max OS(maxOS)， 
那么 建议 你 直接 使 用 虚拟 机 进行 环境 的 搭建 ， 可 以 选择 开源 免费 的 Visual 
Box ，Windows 下 也 可 以 使 用 商业 版 的 VMware ，Mac 下 有 一 个 更 棒 的 商业 版 
选择 Paralelle Desktop ， 但 是 这 都 是 软件 ， 算 是 无 关 紧 要 的 。 

e。 选择 一 个 Linux 发 行 版 ， 由 于 我 用 的 是 Debian 系列 的 Ubuntu 16.04 
LTS ， 所 以 我 也 推荐 这 个 发 行 版 ， 其 他 的 发 行 版 也 许 略 有 差异 ， 不 再 多 说 。 

e 装 好 之 后 ， 直 接 进入 开发 阶段 吧 。 

o IDE 可 以 选择 Clion 或 者 Kdevelop 。 

o 当然 你 要 用 Vim 我 也 不 会 阻拦 ， 但 是 请 装 好 两 个 插 
件 Nerdtree 和 YouCompleteMe ， 配 合 好 另 一 个 软件 tmux (简单 使 
用 )， 不 然 你 会 想 死 。 

o 除了 Vim ， 你 也 可 以 选择 Visual Studio Code 加 装 一 个 C/C++ 
tools 也 是 不 错 的 。 

o 作为 时 尚 的 我 ， 自 然 选择 Clion 了 ， 简 单 明 了 ， 且 还 是 使 用 cMake 作 
为 构建 工具 。 

@ 想 要 进行 这 么 底层 的 网 络 编程 ， 请 准备 好 Google 和 Unix 网 络 编程 卷 1 ， 如 
果 你 两 个 都 没有 的 话 ， 不 说 了 ， 再 见 。 建 议 准备 一 个 那 玩 意 儿 去 访 
问 Google 。 


0x15- 套 接 字 编 程 -HTTP 服 务 器 (3) 


e@ 在 一 切 开始 之 前 ， 我 们 需要 设想 一 下 ， 为 了 让 自己 的 HTTP 服 务 器 变 得 更 加 灵 
活 ， 我 们 可 以 让 某 些 参数 不 必 硬 编码 进程 序 中 ， 而 是 用 配置 文件 的 方式 读 取 
e。 一 个 HTTP 服 务 器 的 基本 配置 无 非 是 


o IP 地 址 ， 端 口号 ， 根 目录 路 径 
o 额外 增加 一 个 线程 数 
o 实际 上 ， 应 该 不 需要 我 们 人 为 指定 ， 但 为 了 调试 方便 ， 所 以 选择 放 在 配置 
文件 中 
。 接 下 来 我 们 写 一 个 可 以 解析 配置 文件 的 小 模块 函数 


struct init_config_from_file { 
int core_num; /* CPU Core numbers */ 
#define PORT_SIZE 10 
char listen port[PORT_SIZE]; /* */ 
#define ADDR_SIZE IPV6_LENGTH_CHAR 
char use addr[ADDR_ SIZE]; /* NULL For Auto select(B 
y Operating System) */ 
#define PATH_LENGTH 256 
char root_path[PATH_LENGTH]; /* page root path */ 
}; 


typedef struct init_config from file wsx_config_t; 


这 个 是 配置 文件 的 所 有 属性 ， 可 以 将 读 取 的 参数 ， 存 进 这 个 结构 体 中 ， 与 主线 


涅 交互 


EWN 


* Read the config file "wsx.conf" in particular path 
* and Put the data to the config object 

* @param config is aims to be a parameter set 

* Q@return 0 means Success 

2 9/ 

int init_ config(wsx_config _t * config); 


交互 的 接口 ， 我 的 配置 文件 叫做 Wsx.conf 


对 于 配置 文件 存放 位 置 而 言 ， 可 以 灵活 一 些 ， 例 如 可 以 额外 添加 一 个 命令 行 参 
数 ， 用 来 指定 本 次 需要 使 用 的 配置 文件 路 径 : ./httpd -f 
/path/to/wsx.conf 当然 这 用 在 开发 版 本 可 以 方便 调试 ， 实 际 上 的 HTTP 服 务 
器 并 不 行 ， 参 见 守 护 进 程 的 定义 


经 典 的 做 法 还 是 指定 默认 路 径 ， 将 配置 文件 都 存放 在 某 个 地 方 ， 可 以 多 设 定 
es ee 


e 想 想 ， 我 们 需要 什么 功能 ， 我 给 自己 的 配置 文件 添加 了 注释 功能 ， 以 # 开头 
的 都 是 注释 ， 这 点 十 分 容 匈 做 到 。 
e@ 上 代码 


static const char * config path_ search[] = {CONFIG FILE PA 
TH, "./wsx.conf", "/etc/wushxin/wsx.conf", NULL}; 


int init config(wsx_config _t * config)t{ 
const char ** roll = config_path_search,; 
FILE * file; 
for (int i = 0; roll[I] != NULL; ++i) { 
file = fopen(roll[i], "“r"); 
if (file != NULL) 
break; 
} 
If (NULL == file) { 
#if defined(wWSX_DEBUG ) 
fprintf(stderr, "Check For the Config file, does i 
t stay its life?\n" 
"In Such Path: \n%s\n%s\n%s\n", config path_ search 
[0], config_path_ search[1], config path_search[2]); 
#endif 
exit(-1); 


文 是 很 简单 的 文件 操作 ， 包 括 打 开 文 件 ， 验 证 是 否 成 功 ， 可 以 选择 将 其 封装 成 
一 个 inline 部 数 ， 来 模块 化 这 个 逻辑 。 


char buf[PATH_LENGTH] = {"\0"}; 
char * ret 
ret = fgets(buf, PATH_LENGTH, file); 
while (ret != NULL) { 
char * pos = strchr(buf, ':'); 
char * check = strchr(buf, '#'); /* Start with # w 
ill be ignore */ 
if (check != NULL) 
senecke = NO 


if (pos != NULL) { 
*pos++ = '\QO'，; 
if (9 == strncasecmp(buf, "thread", 6)) { 
sscanf(pos, "%d", &config->core_num); 
} 
else if (0 == strncasecmp(buf, "root", 4)) { 
sscanf(pos, "%s", &config->root path); 
/* End up without "/", Add it */ 
if ((config->root_path)[strlen(config->roo 
t_path)-1] != '/') { 
strncat(config->root_ path, "/", 1); 


} 
else if (0 == strncasecmp(buf, "port", 4)) { 


sscanf(pos, "%s", &config->listen port); 
} 
else if (0 == strncasecmp(buf, "addr", 4)) { 
sscanf(pos, "%s", &config->use _addr); 
} 
} /* if pos != NULL */ 
ret = fgets(buf, PATH_LENGTH, file); 
} /* while */ 
fclose(file); 
return 0， 


真正 的 核心 代码 没 几 行 ， 四 个 if ,使 用 strncasecmp 函数 ， 检 测 参 数 。 但 是 
并 没有 验证 参数 的 正确 性 。 


当然 你 也 可 以 写成 json 的 形式 ， 再 用 第 三 方 库 ， 比 如 c-json 之 类 的 解 
析 ， 但 那 不 是 要 依赖 第 三 方 了 吗 ? 所 以 我 的 建议 还 是 自己 写 一 个 解析 的 函数 。 


如 果 没 能 理解 这 小 段 代码 ， 建 议 翻 一 下 C 语 言 的 入 门 教材 ， 回 顾 一 下 语法 。 


e@ 配置 文件 的 样式 


# Just Edit this Config file Or 

# You can Create a new one and save the 01d to 

# Back up 

# But Remember that , that file can only parse 

# the FOUR CONFIGURATION : 

# thread root port address 

# Watch out the case sensitive !!! 

# thread -- For the Worker thread number 

# root -- For the WebSite's root path 

# port -- Listen Port 

# address -- Host's address(Note it If you can) 

# Or empty For the auto select by Operating Sys 
tem 

thread:8 


# Using shell Command (pwd) to Show your root Path! 
root:/root/Clionprojects/httpd3/ 

port:9998 # That is a port 

address:192.168.141.149 


e@ 配置 文件 读 取 完 成 了 ， 我 们 是 时 候 设计 一 下 主 函 数 的 流程 了 ， 回 想 一 下 流程 
图 ， 下 一 步 就 应 该 创建 套 接 字 ， 绑 定 ， 并 监听 ( listen ) 了 ! (流程 图 中 没有 
画 出 listen ， 过 于 宛 余 ， 但 却 必 不 可 少 ) 


e@ 可 以 将 创建 ， 绑 定 合 并 成 一 个 函数 ， 在 成 功 之 后 ， 再 执行 listen 。 


/* 

* Open The Listen Socket With the specific host(IP addres 
s) and port 

* That must be compatible with the IPV6 And IPV4 

* host_addr could be NULL 

* port MUST NOT BE NULL !!! 

* sock_type is the pointer to a memory ,which comes from 
the Outside(The Caller) 

* x/ 

int open_ listenfd(const char * restrict host addr,const ch 

ar * restrict port, int * restrict sock_ type); 


可 以 看 出 来 ， 需 要 一 个 IP, 一 个 PORT ， 第 三 个 参数 是 套 接 字 类 型 担 不 是 传 入 
参数 ， 而 是 传 出 参数 。 


int open_ listenfd(const char * restrict host addr, const c 
har * restrict port, int * restrict sock_ type)t{ 
int listenfd = 0; /* listen the Port, To accept the ne 
Ww Connection */ 
struct addrinfo info_of_host; 
struct addrinfo * result,; 
struct addrinfo * p; 


/* 实际 上 这 一 行 完 全 可 以 在 上 面 使 用 初始 化 来 达到 目的 。 
* struct addrinfo info_of_host = {0}; 需要 c99 


wi 
memset(&info_ of_host, ©0, sizeof(info_of_host)); 
info_of_host.ai family = AF_UNSPEC; /* Unknown Socke 
t Type */ 
info_of_host.ai flags = AI_PASSIVE; /* Let the Prog 


ram to help us fill the Message we need */ 
info_of_host.ai socktype = SOCK_STREAM; /* TCP */ 


int error_code; 
if(0 != (error_code = getaddrinfo(host_addr, port, 
&info_ of_host, &result)))t{ 
fputs(gai strerror(error_code), stderr); 
return ERR_GETADDRINFO; /* -2 */ 


for(p = result; p != NULL; p = p->ai next) { 
listenfd = socket(p->ai family, p->ai socktype, p- 
>ai_protocol); 


if(-1 == listenfd) 

continue; /* Try the Next Possibility */ 
optimizes(listenfd); 
if(-1 == bind(listenfd, p->ai addr, p->ai addrlen) 


){ 
close(listenfd); 
continue; /* Same Reason */ 
} 
break; /* If we get here, it means that we have su 
cceed to do all the work */ 


} 


freeaddrinfo(result); 
If (NULL == p) { 
fprintf(stderr, "In %s, Line: %d\nError Occur whil 
e Open/ Binding the listen fd\n", FILE , LINE  ); 
return ERR_BINDIND ， 








} 
fprintf(stderr, "DEBUG MESG: Now We(%d) are in : %s ， 


listen the %s port Success\n", listenfd, 
inet_ntoa(((struct sockaddr_in *)p->ai addr)->sin_addr 


), port); 
*sock_type = p->ai family; 
set_nonblock(listenfd); 
return listenfd; 


其 中 有 一 个 optimizes, 是 用 来 设置 一 些 套 接 字 选项 的 ， 现 在 只 需要 知道 有 这 些 
选项 就 行 


套 接 字 选项 分 别 是 TCP_NODELAY 和 SO REUSEADDR 。 


细 看 之 下 ， 和 前 面 介绍 的 几 个 接口 几乎 是 完全 一 致 的 用 法 。 但 如 果 认 为 网 络 编 
程 就 是 这 样 接口 调用 的 话 ， 那 就 是 大 错 特 错 。 


就 这 样 ， 如 果 你 的 配置 文件 中 ， 没 什么 差错 的 话 ， 我 们 就 完成 了 打开 服务 器 套 
接 字 的 工作 ， 这 时 候 你 可 以 组 织 并 且 运 行 一 下 前 面 说 的 这 些 代码 ， 看 看 是 否 如 
此 。 


运行 成 功 与 否 可 以 通过 你 的 终端 是 否 显示 上 述 的 调试 信息 看 出 来 : 
DEBUG MESG: Now We(x) are in : %s , listen the xx port Success 


@ 写 到 这 里 ， 实 际 上 整个 主 函 数 的 代码 已 经 接近 尾声 ， 来 看 看 全 部 的 过 程 调用 


Int main(int argc, char * argv[]) { 
wsx_config _t config = {0}; 
init config(&config) 


int sock type = 0; 

int listenfd = open_ listenfd(config.use addr, config.1] 
isten port, &sock_type); 

listen(listenfd, SOMAXCONN); 

signal(SIGPIPE, SIG_ IGN); 

handle_loop(listenfd, sock_type, &config); 

return 0， 


这 个 逻辑 已 经 十 分 清晰 ， 为 了 方便 我 省 去 了 错误 检查 ， 在 代码 中 应 该 自己 添 
加 ， 这 里 面 有 两 个 新 事物 : signal() ，handle loop() 


e@ 来 解释 一 下 signal(SIGPIPE，SIG IGN) 是 什么 以 及 为 什么 


o signal 是 信号 函数 ， 还 记得 之 前 的 章节 用 它 来 当做 函数 指针 类 型 的 一 个 
练习 思考 题 吗 ? 它 的 作用 就 是 在 本 进程 /线程 接收 到 该 信号 ( SIGPIPE ) 时 
候 ,会 进行 这 样 的 ( SIG_IGN ) 处 理 

o 当然 它 有 更 好 更 推荐 的 做 法 sigation ,比较 复杂 但 是 也 比较 推荐 你 用 

这 里 为 了 减少 概念 ， 就 用 了 最 原始 的 signal 。 

o SIGPIPE 是 一 个 关于 写 的 错误 ， 触 发 条 件 是 向 一 个 发 送 了 RST 的 对 端 
进行 写 操作 ， 默 认 行 为 就 是 结束 本 进程 ， 我 们 当然 不 愿意 结束 了 ， 明 明 是 
对 方 的 错 ， 怎 么 要 我 们 死 。 最 基本 的 做 法 就 是 忽略 它 SIG_IGN 。 

o 稍微 解释 一 下 SIGPIPE ， 模 拟 一 下 情形 ， 这 里 需要 对 TCP 的 工作 方式 有 
一 定 了 解 ， 不 了 解 的 可 以 跳 过 : 

四 TCP 是 全 双 工 的 ， 意 味 着 可 读 可 写 ， 假 设 有 A,B 端 本 来 工作 的 好 好 


的 ， 突 然 B 端 前 溃 退 出 了 ， 那 自然 联系 A,B 端 的 套 接 字 连 接 就 断 了 ， 但 
是 A 端 并 不 懂 啊 ， 它 这 时 候 只 知道 B 端 不 会 再 发 送 消息 给 自己 了 (因为 
接 到 了 B 发 给 自己 的 FIN， 自 己 回 复 了 ACK， 关 闭 了 接收 通道 )， 并 不 
懂 自 己 还 能 不 能 发 消息 给 B 啊 (所 以 A 当 做 自己 能 发 给 B 端 ) 
和 然而 实际 上 ， 现 在 哪里 还 能 发 消息 给 B 啊 ， 这 就 回 到 了 上 面 ， 如 果 向 

一 个 发 送 了 RST 的 对 端 进 行 写 操作 的 话 ， 就 会 触发 SIGPIPE ,信号 
这 个 东西 就 是 全 局 的 ， 所 以 如 果 你 想 知道 哪个 线程 触发 了 这 个 信号 ， 
还 需要 检查 写 操作 是 否 返回 了 EPIPE 错误 

o 看 不 懂 也 无 所 谓 ， 来 日 方 长 ， 细 水 长 流 。 这 就 是 这 一 行 代码 的 意义 ， 就 是 

为 了 忽略 这 个 信号 。 


e handle loop 是 一 个 事件 循环 的 入 口 


o 就 是 所 有 的 事务 处 理 准备 都 在 里 面 ， 回想 一 下 流程 图 ， 我 们 接 下 来 该 干 什 
2 
o 使 用 epoll 监听 服务 器 套 接 字 ， 用 来 建立 新 连接 
o 分 配 新 连接 给 子 线程 ， 在 其 中 处 理 各 种 事件 。 
o 呐 ， 实 际 上 handle loop 就 干 了 两 件 事 
mm 准备 一 下 服务 器 资源 (包括 存储 新 连接 的 各 种 信息 ) 
@ 创建 子 线程 用 来 监听 服务 器 套 接 字 或 处 理 新 连接 事件 
e@ 几 个 全 局 变量 


static int * epfd_group = NULL; /* Workers' epfd set */ 

static int epfd_group_size = 0; /* Workers' epfd set siz 
e */ 

static int workers = 0; /* Number of Workers */ 

static int listeners = MAX_ LISTEN_ EPFD_SIZE; /* Number 0o 
f Listenner */ 

static conn client * clients; /* Client set */ 


e handle loop() 


void handle loop(int file dsption, int sock_type, const ws 
x_config t * config) { 
workers = config->core_num - listeners,; 
int listen epfd = epoll create1(0); 
{ /* Register listen fd to the listen epfd */ 
struct epoll event event,; 
event.data.fd = file_dsption; 
event.events = EPOLLET | EPOLLERR | EPOLLIN; 
/* 以 ET 方式 监听 file_dsption 的 读 事 件 ， 错 误 事 件 */ 
epoll_cti(listen epfd, EPOLL_CTL_ADD, file dsption 
, &event); 
} 
/* Prepare Workers Sources */ 
prepare_workers(config); 
pthread t listener_set[listeners]; 
pthread t worker_set[workers]; 
for (int i = 0; i < listeners; ++i) 
pthread create(&listener_ set[i], NULL, listen_ thre 
ad, (void*)listen epfd); 
for (int j] = 0; j < workers; ++j) { 
pthread_create(&worker_set[j], NULL, workers_ threa 
d, (void*)(epfd group[j])); 
pthread_detach(worker_set[j]); 
} 
for (int k = 0; k < listeners; ++k) 
pthread_join(listener_set[k], NULL); 
destroy_resouce(); 


使 用 了 最 原始 的 线性 数组 来 存储 所 有 的 连接 信息 ( conn client ) ， 这 其 实 
次 端 很 大 ， 上 比如 最 明显 的 数量 以 及 预 分 配 的 资源 过 大 。 但 关键 是 够 简单 ， 且 效 
率 最 高 。 
整个 的 原理 就 是 ， 在 接受 到 新 连接 以 后 ， 按 照 某 种 规则 分 配给 第 i 个 子 线程 ， 每 
个 子 线程 中 有 一 个 工作 epoll (epoll_group[i-1])， 用 来 监听 新 连接 的 事件 ， 并 
处 理 。 


prepare_workers 就 是 分 配 内 存 空 间 的 相关 工作 。 这 段 代码 ， 同 样 省 略 了 错 
误 检 查 ， 和 希望 自己 添加 。 


{} 里 面 可 以 看 出 来 怎么 向 epoll 实例 中 注册 监听 实体 ， 以 及 监听 事件 。 


整 段 代码 的 后 半 部 分 ， 是 关于 线程 的 启动 ， 操 作 ， 销 
毁 。 pthread_detach 意味 着 放弃 线程 的 资源 回收 权 ， 用 通俗 的 话 来 说 就 
是 :“ 撒 丫 子 跑 吧 ， 我 管 不 着 你 了 1 ”。 


。 这 就 是 完整 的 一 个 主 函 数 逻 辑 ， 实 际 上 非常 简单 ， 到 现在 为 止 也 没 出 现 过 十 分 
复杂 的 东西 ， 就 像 在 做 繁琐 的 准备 工作 一 样 。 
下 一 节 将 会 详细 讲解 


1. 连接 信息 都 有 哪些 需要 存储 的 
2. 如 何 处 理 读 事件 ， 字 符 数据 的 管理 呢 ? 


0x16- 套 接 字 编 程 -HTTP 服 务 器 (4) 


新 连接 


1. 一 个 新 晋 连接 ， 有 哪些 信息 是 值得 我 们 关注 的 ? 

2. 该 如 何 存 储 它们 ? 

这 里 将 会 叙述 的 并 不 会 很 完整 ， 因 为 不 同 目的 的 网 络 程序 ， 需 要 关注 的 信息 也 
大 不 相同 

特别 是 这 个 程序 关注 的 是 如 何 使 用 C 语 言 编写 一 个 服务 器 


. 我 们 最 关心 的 ， 还 是 对 端 通过 这 个 新 连接 所 发 来 的 信息 
o 简单 来 说 就 是 我 们 read 到 的 信息 。 进 行 过 系统 编程 的 都 应 该 会 知道 这 个 
函数 ,与 之 对 应 的 是 write 。 与 C 标 准 库 为 我 们 提供 的 标准 格式 化 输入 输 
出 不 同 的 地 方 在 于 其 操作 的 对 象 。 read/write 操作 的 是 一 个 在 叫做 文 
件 描述 符 (file description) 的 int 类 型 的 东西 ， 而 标准 库 的 函数 
( printf/scanf ) 操 作 的 则 是 一 个 FILE* 特殊 的 结构 体 指针 ， 这 两 者 之 
间 可 以 互相 转换 ， 通 过 fdopen(fd-->FILE*)/fileno(FILE*-->fd) 有 具 
体 相关 知识 ， 查 阅 相关 信息 ， 如 著名 的 APUE 。 
其 次 我 们 对 这 个 信息 做 相应 处 理 ， 中 间 会 有 很 多 状态 ， 也 就 是 常常 听 到 的 
HTTP 状 态 机 
o 实际 上 也 就 是 几 个 状态 值 在 转换 和 过 渡 ， 只 是 名 字 专 业 了 一 些 
3. 最 后 我 们 会 生成 一 个 信息 ， 用 来 回复 对 端 
这 个 也 叫做 响应 报 文 


i ws， 和 寺 (file description) 在 Windows 下 近似 相当 于 文件 句柄 
(file handlerm)， 只 不 过 前 者 是 有 规律 的 递增 ， 而 后 者 则 不 是 。 


1. 如 何 存储 ? 


typedef unsigned char boolean 
struct connection { 
int file dsp; 
#define CONN_BUF_SIZE 512 
int r_buf_offset; 
int w_ buf_offset; 
string_t r_buf; 
string_t w_ buf; 
struct { 
/* Is it Keep-alive in Application Layer */ 


boolean conn_linger :; 1; 

boolean set_ ep_out dy 

boolean is read done : 1; /* Read from Peer Done? * 
/ 

boolean request http_v : 2; /* HTTP/1.1 1.0 0.9 2.0 
SA 

boolean request method : 2; /* GET HEAD POST */ 

int content type : 4; /*2^4 -> 16 Types */ 

int content_length; /* For POST */ 

string_t requ_res path; /* / */ 

}conn_res; 

}; 


typedef struct connection conn_client 


其 中 有 一 个 陌生 的 事物 ， string t ， 这 个 是 用 来 进行 字符 串 操作 的 一 个 自己 
写 的 结构 ， 用 于 简化 操作 ， 可 以 把 它 看 成 一 个 可 以 自动 增长 的 字符 串 类 型 。 


再 者 就 是 ， 内 上苍 结构 体 中 使 用 到 了 位 域 这 个 方式 ， 主 要 是 因为 C 中 没有 原生 
的 bool 类 型 ， 使 用 int 来 表示 又 太 过 奢侈 


这 个 位 域 的 写法 在 某 些 人 看 来 似乎 不 大 感冒 ， 实 际 上 还 有 替代 的 方法 可 以 用 ， 
也 就 是 使 用 掩 码 的 思想 ， 在 一 个 int 型 中 的 不 同位 包含 不 同 的 信息 ， 实 际 上 
和 我 这 个 的 原理 是 相同 的 ， 只 不 过 我 将 它 拆 开 了 ， 这 样 就 可 以 不 写 各 种 处 理 宏 
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Struct { 
int status_ set,; 
int content_length; 
string_t request_length,; 
}conn_res 


enum { 
SET_CONN_LINGGER = 1, 
SET_EPOLLOUT = 1 << 1, 


} 
/* 几乎 对 于 每 一 个 位 置 的 操作 都 有 三 个 ， 设 置 ， 复 位 ， 检 测 */ 
#define SET_CONN_LINGER(MASK_SET) (MASK_SET &= SET_CONN_LIN 


GER) 
#define CLR_CONN_LINGER(MASK_SET ) (MASK_SET &= (~SET_CONN_L 
INGER)&9xFFFF) 
#define IS_CONN_LINGER(MASK_SET ) (MASK_SET & SET CONN LINGE 
R) 

依 此 类 推 。 


实际 上 ， 对 于 这 个 string_t 的 设计 是 一 个 想当然 的 失败 ， 当 时 是 想 尝 试 使 
用 面向 对 稼 的 想法 ， 但 是 没有 考虑 到 其 使 用 时 候 的 宛 余 ， 后 面 会 看 到 这 个 小 麻 
烦 ， 但 是 总 体 上 还 是 可 以 得 。 


这 次 总 结 出 来 的 就 是 ， 在 C 里 面 使 用 面向 对 象 的 思维 实在 有 点 狗 强 ， 有 具体 等 后 
方 说 到 这 个 string_t 时 会 再 提 到 。 
2016-08-28 将 其 修改 为 正常 的 C 风 格 。 

. 所 以 实际 上 来 看 一 看 ， 我 存储 了 哪些 状态 信息 


o 一 个 新 连接 的 file description file dsp : 这 个 肯定 是 必要 的 ， 不 然 你 
怎么 对 这 个 新 连接 进行 操作 。 
o 一 个 读 缓冲 配 着 一 个 读 位移 ( r_buf 和 r_buf_offset ): 
上 四 之 所 以 需要 位 移 ， 是 因为 你 要 牢 牢 记 住 ， 尤 其 是 在 网 络 通信 中 ， 总 会 
出 现 网 络 不 稳 的 状况 ， 这 会 导致 某 时 候 你 的 信息 不 能 完全 一 次 新 的 读 


取 到 ， 也 就 是 需要 分 次 读 取 ， 所 以 你 需要 知道 上 次 你 读 到 哪里 
四 男 一 个 原因 是 因为 ， 在 解析 读 取 的 信息 的 时 候 ， 你 要 时 刻 知 道 自己 处 
理 到 哪里 了 ， 是 否 接收 到 数据 不 完整 ? 是 否 接收 的 数据 有 错 ? 等 等 。 
o 一 个 写 缓冲 配 着 一 个 写 位 移 (Ww_buf 和 w_buf_offset ) 
mm 写 事 件 要 比 读 事件 简单 许多 。 
o 一 个 包含 HTTP 状 态 的 属性 结构 conn_res 
m Conn_linger :是 否 保 持 连 接 (keep-alive) 
@ Set_ep_out : 是否 设置 监听 写 事件 (EPOLLOUT) 
@ is _read done :是 否 已 经 读 取 信息 完毕 
request_http_v :HTTP 协 议 版 本 
mm request_method :HTTP 请 求 方 法 
content_type :响应 报 文 中 的 属性 
@ content_ length :同上 
requ_res_path :对 端 想 请 求 的 资源 
2. 所 以 这 也 从 另 一 个 方面 回答 了 上 面 的 第 二 个 问题 该 如 何 存 储 它 们 ? 


3. 了 解 过 ， 要 存储 那些 信息 ， 该 如 何 存储 这 些 信 息 之 后 ， 就 能 继续 服务 器 的 编写 
事件 循环 
e@ 前 面 我 们 的 进度 ， 已 经 到 了 handle_loop 里 面 ， 并 且 将 总 体 流 程 已 经 过 了 一 
二 


e handle_loop 就 是 一 个 事件 循环 ， 我 们 整个 程序 的 编程 模型 就 是 一 个 事件 
驱动 的 编程 体系 ， 什 么 是 事件 驱动 ， 可 以 查阅 相关 资料 ， 如 UNP 等 书籍 。 在 
这 个 事件 循环 中 ， 我 们 使 用 两 个 事件 驱动 我 们 的 流程 : 读 事 件 ， 写 事件 

e@ 即 ， 一 旦 某 个 连接 可 读 〈 回 忆 一 下 TCP 连 接 可 读 可 写 ) 我 就 处 理 读 事 件 ， 写 事 
件 也 是 如 此 。 

e。 在 这 个 循环 中 ， 我 们 启动 了 两 种 线程 ， 一 种 专门 用 于 接受 建立 新 连接 ， 一 种 专 
门 用 来 处 理 新 连接 的 读 写 事件 ， 分 别 是 listen_thread 和 

workers_thread ， 常 理 来 说 前 者 一 个 就 够 了 ， 后 者 可 以 酌情 处 理 。 

e。 先 说 说 比较 简单 的 listen_thread 


listen_thread 


e@ 回 到 handle _ loop 的 代码 中 可 以 看 到 有 一 个 独立 的 代码 块 {} ， 这 个 代码 块 
的 作用 就 是 将 我 们 之 前 创建 的 服务 器 套 接 字 ， 添 加 到 一 个 epoll 实例 中 ， 准 
备 传 给 listen_thread 。 在 该 epoll 实例 中 ， 我 们 监听 了 它 的 读 事件 ， 以 


及 错误 事件 EPOLLERR 


{ /* Register listen fd to the listen epfd */ 
struct epoll event event,; 
event.data.fd = file_dsption,; 
event.events = EPOLLET | EPOLLERR | EPOLLIN; 
epoll ctl(listen epfd, EPOLL CTL ADD, file dsption, &e 
vent ); 


e。 紧 接 着 ， 我 们 需要 创建 线程 ， 用 来 完成 接受 创建 新 连接 ， 分 配 新 连接 ， 处 理 
新 连接 


e@ 先 说 前 两 个 


e listen _ thread 


/* Listener's Thread 
* @param arg will be a epoll instance 
* x*/ 
static void * Jisten thread(void * arg) { 
int listen epfd = (int)arg; 
struct epoll event new client = {0}; 
/* Adding new Client Sock to the Workers' thread */ 
int balance_ index = 0; 
while (terminal_ server != CLOSE SERVE) { 


这 是 一 个 永 不 停止 的 循环 ， 除 非 在 外 部 传 入 了 一 个 信号 CTRL+C ， 其 实 没 什么 
意义 ， 不 过 还 是 写 了 


// 这 是 监听 的 阻塞 地 点 ， 在 此 处 会 返回 有 多 少 个 事件 发 生 了 ， 当 然 这 
中 
int is work = epol] wait(listen epfd, &new client, 
1, 2000); 
int sock = 0; 
// 如 果 不 是 因为 超时 才 到 了 这 里 
while (is work > 0) { /* New Connect */ 
// 接 受 并 创建 新 连接 
sock = accept(new client.data.fd, NULL, NULL); 
if (sock > 0) { 
// 如 果 没 有 意外 的 话 
set_nonblock(sock); 
clear_clients(&clients[sock|); 
clients[sock].file dsp = sock; 
// 分 配 新 连接 给 各 个 workers_thread 
add_event(epfd_ group[balance index], sock, 


EPOLLIN ) ， 
balance_index = (balance_index+1) % worker 
S, 
} else /* sock == -1 means nothing to accept * 
/ 
break; 


} /* new Connect */ 
}/* main while */ 
close(listen epfd); 
pthread exit(0); 


其 实在 上 面 的 accept 和 set nonblock 可 以 用 一 个 系统 调用 来 解 
决 ，accept4 ， 而 不 需要 使 用 两 个 不 同 的 系统 调用 来 完成 这 个 功能 ， 具 体 可 
以 查询 文档 。 


e@ 可 以 看 出 ， 这 个 listen_thread 的 职责 非常 简单 ， 就 只 是 单纯 的 接受 创建 新 
连接 ， 设 置 一 些 属 性 ， 并 且 分 配给 workers thread ， 所 以 真正 复杂 的 工作 
还 是 在 后 者 身上 
Workers thread 


e 这 是 整个 程序 的 核心 部 分 ， 但 还 是 按照 应 丁 解 牛 的 方法 ， 一 步 步 分 解 


分 


e 整个 的 代码 有 点 兄长 ， 但 是 逻辑 十 分 清晰 ， 大 体 可 以 分 成 读 写 两 部 
static void * workers thread(void * arg) { 
int deal epfd = (int)arg; 
struct epoll event new apply = {0}; 
while(terminal server != CLOSE SERVE) { 


int is apply = epoll wait(deal epfd, &new apply, 1 
; 2000); 


if(is_apply > 0) { /* New Apply */ 
int sock = new_apply.data.fd; 
conn_client * new client = &clients[sock]; 


到 此 处 为 止 ， 前 面 的 逻辑 和 1isten_thread 十 分 相似 ， 需 要 额外 说 的 就 是 
epoll wait 接口 中 的 第 二 ， 三 个 参数 ， 状态 的 新 连接 
(new_apply[i), 和 有 多 少 个 这 样 的 新 连接 ()。 代 码 中 写 

是 (,&new_apply,1,) 代表 着 我 每 次 只 想得到 一 个 ， 和 案 在 后 
会 提 到 ， 跳 过 也 无 所 谓 。 


/* 读 事件 */ 
if (new_apply.events & EPOLLIN) { /* Reading W 


ork */ 

/* handle_read 是 接收 并 解析 HTTP 请 求 报 文 的 地 方 * 
/ 

int err_code = handle read(new client); 

/* 此 处 省 略 一 个 很 重要 的 分 片 错 误 处 理 */ 

else if (err_code != HANDLE_READ_SUCCESS ) 
{ 


/* Read Bad Things */ 
close(sock); 
continue; 
} 
} // Read Event 


以 上 便 是 简化 的 读 事件 的 处 理 ， 抛 开 来 看 ， 一 切 的 核心 就 是 handle_read 
个 函数， 后 放 会 详细 讲解 。 


这 


A 
else if (new apply.events & EPOLLOUT) { /* Wri 
ting Work */ 
int err_code = handle write(new client); 
/* TCP's Write buffer is Busy */ 
if (HANDLE WRITE AGAIN == err_code) 
mod_event(deal epfd, sock, EPOLLONESHO 
T | EPOLLOUT); 
else if (HANDLE WRITE_ FAILURE == err_code) 
{ /* Peer Close */ 
close(Sock ) ; 
continue 
} 
/* if Keep-alive */ 
if(1 == new_client->conn_res.conn_linger) 
mod_event(deal epfd, sock, EPOLLIN); 
elsef{ 
Close(Sock ) ; 
continue; 


} 
} /* EPOLLOUT */ 


所 谓 clear_clients 其 实 就 是 清除 一 些 现 有 状态 ， 不 然 下 次 有 别 的 连接 占用 
的 时 候 就 会 错乱 了 。 


else { /* EPOLLRDHUG EPOLLERR EPOLLHUG */ 
close(sock); 


} 
} /* New Apply */ 
} /* main while */ 
return (void*)0; 


。 看 起 来 有 点 长 ， 实 际 上 模块 十 分 清楚 。 从 上 往 下 看 ， 由 三 个 jf - else 分 支 
分 别处 理 读 事 件 ， 写 事件 ， 错 误 事 件 

@ 这 其 中 省 略 了 一 些 十 分 重要 的 错误 处 理 ， 以 及 某 些 优化 ， 和 希望 可 以 自己 补 全 ， 
种 编程 模型 全 盘 托 出 ， 接 下 来 就 是 细节 方面 的 处 
理 了 。 


handle_read 


@ 这 应 该 是 这 个 HTTP 服 务 器 站 正 的 重点 所 在 a 用 一 个 词 来 形容 就 是 核心 技 
术 ， 当 然 没 那么 高 端 ， 就 是 个 程序 而 已 。 

e。 前 面 提 到 一 个 名 词 ， 叫 做 HTTP 状 态 机 ， 指 的 就 是 状态 的 转换 ， 在 C 语 言 中 ， 
可 以 使 用 enum 来 实现 


typedef enum { 
HANDLE_READ_SUCCESS 
HANDLE_READ_FAILURE 


-(1 << I) 
(At ES 2), 


}HANDLE_STATUS; 


代表 了 ， handle read 是 成 功 还 是 失败 ， 有 一 个 额外 的 
MESSAGE_IMCOMPLETE 状态 也 输 一 这 个 范畴 内 ， 但 是 设计 的 时 候 出 现 了 差 
错 ， 可 以 选择 将 其 放 在 里 面 。 


MESSAGE_IMCOMPLETE 是 为 了 应 对 TCP 分 片 问题 ， 所 以 在 显示 网 络 中 很 常 
见 ， 但 是 本 地 测试 的 时 候 可 能 不 容易 发 现 ， 可 以 使 用 工具 tc 来 模拟 弱 环 


境 。 


e HANDLE STATUS handle _ read(conn client * client) 


HANDLE_STATUS handle_ read(conn client * client) { 
int err_ code = 0; 
/* Reading From Socket */ 
err_code = read _n(client); 
If (err_code != READ SUCCESS) { /* If read Fail then E 
nd this connect */ 
return HANDLE_READ_FAILURE,; 


到 这 里 为 止 是 读 取 所 有 可 以 读 到 的 数据 


/* Parsing the Reading Data */ 
err_ code = parse reading(client); 
if (err_code == MESSAGE INCOMPLETE) 
return MESSAGE_ INCOMPLETE,; 
if (err_code != PARSE SUCCESS) { /* If Parse Fail then 


End this connect */ 
return HANDLE READ_ FAILURE, 


到 这 里 为 止 是 处 理 所 有 已 经 读 到 的 数据 


return HANDLE READ SUCCESS, 


到 了 这 里 ， 就 证 明 读 和 处 理 都 已 经 正确 完成 了 。 
巧 用 gdb 能 让 你 轻松 理解 整个 状态 机 的 逻辑 


。 从 函数 接口 上 看 ， 它 接受 一 个 GONH G1IehE 类 型 的 指针 ， 回 想 一 下 ， 这 就 是 
se ote 息 的 地 方 ， 返 回 值 就 是 这 个 动作 的 状态 了 。 
e@ 从 功能 上 看 ， 这 个 函数 主要 的 工作 就 是 将 handle_read 拆 分 成 两 大 部 分 


. ee read_n ) 
.首先 读 取 所 有 能 读 取 的 数据 (从 socket 中 ) 
验证 数据 是 否 完 整 
.对 于 GET 而 言 A ee Ls \r\n 
.对 于 POST 一 名 Content-length 属性 的 值 将 
body 读 取 完整 
2. 处 理 数据 ( parse_reading ) 
i 处理 HTTP 请 求 报 文 第 一 行 状态 行 
ji， 处 理 剩 余 的 头 属性 ， 如 Connection 
iii， 生 成 响应 报 文 ， 你 可 以 考虑 将 这 一 步 划分 出 去 ， 因 为 这 一 步 涉及 到 了 
磁盘 /0 
@ 先 说 第 一 部 分 ， 读 取 数 据 ( read_n ) 


e Sstatic int read n(conn_client * client) 


e@ 实现 一 个 read 郊 数 的 加 强 版 


_ thread char read buf2[CONN BUF_SIZE] = {0}; 
static int read n(conn client * client) { 
int read offset2 = 0; 
int fd client->file_dsp; 
char * buf &read_ buf2[0]; 
int buf_index = read_offset2; 


int read number = 0; 
int less capacity = 0; 


从 前 往 后 依次 是 读 缓冲 区 位 移 ， 处 理 的 连接 套 接 字 ，buf 纯粹 多 此 一 举 还 可 
能 阻碍 编译 器 优化 ， 但 我 还 是 写 了 ， 强 连 症 吧 ， buf_index 同 


理 ， read_number 是 本 次 读 的 字符 个 数 ， less_capacity 是 缓冲 区 的 容量 
余 量 
while (1) { 


/* 因为 是 非 阻塞 ， 所 以 要 不 停 地 读 ， 直 到 `read ` 返 回 -1， 且 errn 
0 为 EAGAIN */ 
less capacity = CONN_ BUF_SIZE - buf_index; 
if (less capacity <= 1) {/* Overflow Protection */ 
/* 万 一 这 本 地 的 缓冲 区 容量 不 够 了 ， 就 刷新 进 conn_client 
人 
buf[buf_index] = '\0'; /* Flush the buf to the 
r_buf String */ 
/* 对 于 STRING 宏 ， 可 以 看 看 我 的 源码 中 的 Wsx_string. 
ha 
cappend_string(client->r_buf, STRING(buf)); 
client->r_buf_offset += read offset2;//- clien 
t->read offset ， 
read _ offset2 = 0; 
buf_index = 0; 
less_ capacity = CONN_BUF_SIZE - buf_index; 
/* 清空 缓冲 区 成 功 */ 


上 面 的 代码 中 ， 有 一 个 APPEND 宏 ， 是 用 来 简化 代码 的 ， 功 能 是 #define 
APPEND(str) str,(strlen(str)+1) 


read_number = (int)read(fd, buf+buf_index, less ca 
pacity); 

/* 0 代表 对 端 关 闭 了 连接 或 者 说 是 已 经 读 完了 EOF( 对 端 调用 close 
()/shutdown()) */ 


if (0 == read number) { /* We must close connectio 
7 
return READ_FAIL ， 
} 
/* -1 代表 现在 没 东 西 可 以 读 了 */ 
else if (-1 == read number) { /* Nothing to read * 
/ 
if (EAGAIN == errno || EWOULDBLOCK == errno) { 
/* 这 个 时 候 ， 我 们 该 做 的 就 是 将 缓冲 区 的 东西 ， 存 储 起 
本 


buf[buf_index] = ' 0 ' 
append_string(client->r_buf, STRING(buf)); 
ClLient->r_buf offset += read offset2;//cil1i 
ent->read_offset,; 
return READ_ SUCCESS,; 
} 
return READ_FAIL ， 
} 
else { /* Continue to Read */ 
/* 能 读 取 到 信息 ， 就 继续 读 */ 
buf_index += read number; 
read_offset2 = buf_index; 


} 
} /* while(1) */ 


thread 关键 字 是 多 线程 编程 里 一 个 手 有 用 的 一 个 关键 字 ， 具 休 可 以 查询 
资料 ， 简 单 来 说 ， 就 是 让 每 个 线程 拥有 一 个 自己 的 全 局 变量 


oo 


e 经 过 read_n 之 后 ， 我 们 就 (可 能 ) 获 取 到 了 完整 的 数据 了 ， 接 下 来 就 是 解析 它 
们 ， 引 入 一 个 状态 
e PARSE STATUS 


typedef enum { 
/* Parse the Reading Success, set the event to Write Event 
“3 
PARSE_SUCCESS = 
/* Parse the Reading Fail, for the Wrong Syntax */ 
PARSE_BAD_SYNTAX = 1 << 2, 
/* Parse the Reading Success, but Not Implement OR No Such 
Resources*/ 
PARSE_BAD_ REQUT = 1 << 3, 
}PARSE_STATUS,; 


解释 的 很 清楚 了 ， 不 再 殊 述 。 


e PARSE STATUS parse reading(conn_client * client) 


PARSE_STATUS parse_reading(conn client * client) { 
int err_code = 0; 
requ_line line status = {0}; 
client->r_buf_offset = 0; /* Set the real Storage offs 
et to 0, the end of buf is '\0' */ 


requ_line 是 一 个 结构 体 ， 用 来 存储 状态 行 所 含有 的 三 个 信息 : 请 求 方法 ， 
请 求 资源 ，HTTP 版 本 号 


/* Get Request line */ 

err_code = deal requ(client, &line_status); 

/* 回想 一 下 这 个 状态 ，TCP 分 片 的 情况 */ 

if (MESSAGE INCOMPLETE == err_code) /* Incompletely r 

eading */ 

return MESSAGE INCOMPLETE,; 

If (DEAL LINE REQU_ FAIL == err_code) /* Bad Request */ 
return PARSE_ BAD_ REQUT,; 





到 这 里 为 止 是 处 理 状态 行 的 代码 


/* Get Request Head Attribute until /r/n */ 
err_ code = deal head(client); /* The second line to t 
he Empty line */ 
if (DEAL_HEAD_FAIL == err_code) 
return PARSE_BAD_ SYNTAX,; 


到 这 里 为 止 是 处 理 完 了 所 有 的 头 属性 


/* Response Page maker */ 
err_ code = make_response page(client); 
if (MAKE_PAGE_FAIL == err_ code) 

return PARSE_ BAD_ REQUT,; 


return PARSE_SUCCESS,; 


e 对 于 deal requ ， deal head 来 说 ， 只 是 一 个 很 简单 的 从 大 字符 囊 中 识别 
出 小 字符 串 ， 并 存储 起 来 的 问题 ， 不 想 过 多 的 叙述 。 在 这 个 处 理 过 程 中 ， 自 己 
实现 了 一 个 get_line 按 行 读 取 的 函数 ， 同 样 会 被 后 面 的 deal_head 使 用 


o 这 其 中 有 一 些 问 题 需 要 注意 一 下 ， 那 就 是 你 需要 考虑 TCP 分 片 问题 ， 这 是 
我 第 三 次 提 到 这 个 东西 ， 也 就 是 用 状态 机 监测 好 这 个 问题 是 否 发 生 ， 并 及 
时 处 理 。 

o 在 deal_head 中 ， 可 以 按 行进 行 循环 读 取 ( get_line )， 知 道 你 发 现 空 
行 ， 那 么 你 就 处 理 完 成 了 ， 如 果 是 POST 方法 ， 你 还 需要 继续 读 取 ， 直 到 
读 取 完 它 的 body。 现 在 想 想 ， conn_client 这 个 结构 体 中 的 那些 属性 是 
干什么 的 ， 就 是 从 这 里 解析 出 来 的 。 

@ 读 取 解 析 完 成 之 后 ， 就 能 进行 响应 报 文 的 生成 了 。 在 下 一 节 中 详 述 


题 外 话 


。 和 上 一 个 部 分 不 同 ， 再 上 一 个 部 分 我 尽 可 能 的 不 落下 一 丝 一 毫 的 细节 ， 将 自己 
如 何 写 程序 的 想法 分 享 给 诸位 

。 但 这 音节， 无 论 怎 么 看 ， 从 思维 ， 从 代码 都 不 再 像 之 前 那 般 面面俱到 ， 我 认为 
也 没有 必要 ， 这 一 章 大 家 应 该 就 具备 了 自我 独立 思考 的 能 力 ， 实 际 上 在 给 出 了 
结构 图 之 后 ， 后 面 的 章节 就 不 怎么 必要 了 

。 但 我 想 把 自己 的 想法 写 出 来 ， 想 想 求学 的 这 几 年 无 人 引导 ， 苦 苦 寻找 资料 的 那 


些 日 子 ， 我 觉得 我 有 必要 把 自己 从 网 络 上 得 来 的 知识 ， 再 次 回馈 给 网 络 ， 这 才 
是 生生 不 息 ， 自 我 进步 的 道理 。 
最 后 
e。 额外 的 补充 
o 我 的 博客 提 到 了 一 些 错误 处 理 的 详细 解释 : 一 个 HTTP 服 务 器 的 C 之 路 
(上 ).html) 
o 陈 硕 的 书 : 《Linux 多 线程 服务 端 编程 》 
@ 这 个 经 验 分 享 系列 马上 就 要 到 头 了 ， 下 一 步 的 我 也 许 就 该 毕业 了 
o 也 许 在 最 后 一 年 ， 我 会 用 最 后 的 时 间 完 成 额外 的 章节 
o 额外 的 章节 有 过 想法 ， 就 是 写 一 个 完整 可 用 的 数据 库 系统 
o 这 个 工程 量 远 超前 方 章节 ， 如 果 有 想法 我 会 及 时 在 本 书 中 更 新 动态 
o 希望 大 家 也 能 够 将 自己 知道 的 ， 学 到 的 知识 贡献 出 来 
e@ 如 果 觉 得 我 说 的 还 行 ， 可 以 给 我 来 一 点 鼓励 呀 


下 一 节 


e 讲述 如 何 生成 响应 报 文 ， 以 及 本 章 的 收尾 。 


0x17- 套 接 字 编程 -HTTP 服 务 器 (5) 
。 让 我 们 停 下 来 ， 回 想 一 下 之 前 的 内 容 


. 首先 读 取 配 置 文件 ， 并 赁 此 打开 服务 器 套 接 字 
2. 确定 一 切 完备 的 情况 下 ( Listen )， 开 局 事务 循环 handle_loop 
3， 准备 好 各 项 资源 prepare_worker ， 开 局 两 种 线程 就 真正 开始 工作 了 
e string t 不 打算 详细 讲解 ， 因 为 并 不 是 什么 好 的 设计 ， 但 是 只 需要 将 接 
口 ， 改 成 C 风 格 的 就 不 错 ， 但 是 有 一 个 致命 的 缺点 ， 就 是 这 不 是 二 进 制 字符 串 


o 什么 意思 ?就 是 这 是 一 个 C 风 格 的 字符 囊 ， 无 法 很 好 的 存储 二 进 制 数据 ， 
例如 无 法 存储 \9 这 个 字符 ， 实 际 上 要 设计 就 需要 重新 设计 。 

o 但 这 个 小 程序 绰绰有余 ， 因 为 只 是 作为 一 个 静态 资源 HTTP 服 务 器 在 使 
用 o 

o 在 本 章 最 后 ， 会 将 源 代 码 地 址 贴 上 ， 仅 供 参 考 ， 写 的 不 够 严谨 ， 但 还 是 有 
意义 的 练习 。 


2016-08-28 修复 上 述 问 题 ， 具 体 可 以 参看 源码 ， 现 在 支持 二 进 制 数据 


万 事 开 头 难 ， 当 你 在 键盘 上 打下 第 一 名 代码 的 时 候 你 就 成 功 了 。 看 永远 都 只 能 
是 谈 谈 兵 ， 虽 说 谈 兵 也 需要 技术 


生成 一 个 响应 报 文 


e 实际 上 客户 端 对 你 怎 这 些 数据 一 点 都 不 感 兴趣 ， 他 们 感 兴 趣 的 不 就 是 你 
欧 太 让 闻 这 过 笠 作品 

e 所 以 说 到 了 这 一 步 就 要 看 看 这 个 报 文 的 组 成 ， 但 这 并 不 是 我 们 的 重点 ， 简 单 讲 
一 下 哪些 属性 比较 重要 。 

。 还 记得 开头 的 时 候 ， 给 出 了 一 个 报 文 实例 ， 实 际 上 最 明了 的 英 过 于 在 浏览 器 中 
揭 F12 后 自己 查看 交互 报 文 ， 再 专业 一 些 使 用 Wireshark 这 类 专业 抓 包 软 
件 也 未 尝 不 可 ， 以 浏览 器 为 例 : 


VY Response Headers view parsed 
HTTP/1.1 288 OK 
Server: GitHub .com 
Content-Type: image/jpeg 
Last-Modified: Thu, 21 Apr 2816 18:54:14 GMT 
Access-Control-Allow-Origin: * 
Expires: Mon, 27 Jun 2816 981:81:84 GMT 
Cache-Control: max-age=680 
X-GitHub-Request-Id: C716B4817:39C8:193539:577867876 
Content-Length: 377719 
Accept-Ranges: bytes 
Date: Mon, 27 Jun 2916 82:22:89 GMT 
Via: 1.1 varnish 
Age: 8 
Connection: keep-alive 
X-Served-By: cache-mial321-MIA 
X-Cache: HIT 
X-Cache-Hits: 1 
Vary: Accept-Encoding 
X-Fastly-Request-ID: 429c45817811982363edf518e89ab2abb32e35a8 
Y Request Headers View parsed 
GET /css/images/banner .jpg HTTP/1.1 
Host: www.wushxin.top 
Connection: keep-alive 
Pragma: no-cache 
Cache-Control: no-cache 
User-Agent: Mozilla/5.9 (Windows NT 19.9; Win64; x64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/51.9.2794.79 Safari/537.36 
Accept: image/webp,image/*,*/*;q=@.8 
Referer: http://www.wushxin.top/css/style.css 
Accept-Encoding: gzip, deflate, sdch 
Accept-Language: zh-CN,zh;q=8.8 


o NA 求 交互 ， 重 点 看 Response Headers 
这 么 一 长 事 ， 实 际 上 申 正 必 不 可 少 的 还 是 那么 两 行 
m HTTP/1.1 200 OK 
@ Content-Length: 377710 
@ 前 者 告诉 你 这 个 球 球 的 结果 ， 后 者 告诉 你 请 求 的 结果 的 内 容 在 哪里 ， 即 在 
报 文中 空 行 后 多 少 个 字 节 都 是 请 求 的 结果 
e。 那 在 C 语 言 中 ， 或 者 说 在 任何 语言 中 ， 都 没什么 特别 好 的 办 法 ， 就 是 用 字符 串 
构造 报 文 了 。 作 为 一 个 标准 库 比 较 贫 泣 的 语言 ， 这 就 要 我 们 多 做 一 点 工作 ， 这 
也 是 为 什么 要 自己 写 一 个 字符 串 结构 体 的 原因 所 在 。 


o 当然 如 果 你 为 了 兼容 二 进 制 数据 ， 那 么 其 至 连 标 准 库 中 的 字符 串 防 数 都 不 
能 使 用 了 ， 和 包括 Linux 提供 的 扩展 gnu99 字符 囊 防 数 ， 原 因 是 因为 C- 
Style 字 符 串 是 以 \@ 作为 结束 符 的 。 
e。 现在 我 们 规定 一 下 ， 我 们 这 个 服务 器 的 响应 报 文 会 包含 的 部 分 


1. 状态 行 是 必要 的 HTTP/VER STATUS CODE STATUS MESSAGE\r\n 
2. 服务 器 时 间 Date: xxx\r\n 
上 用 的 是 UTC 格式 ， 实 际 上 此 处 也 可 以 有 点 小 讲究 ， 后 面 提 一 下 


资源 类 型 Content -Type: xxx\r\n 

资源 长 度 Content-Length: xxx\r\ 

连接 状态 Connection: xxx\r\n 

空 行 \r\n 

资源 

@ 在 进入 生成 报 文 的 环节 中 ， 其 实 还 有 很 多 工作 要 做 ， 例 如 判断 是 什么 请 求 方 
法 ， 是 否 是 恶意 请 求 ， 获取 资源 的 各 种 信息 等 ， 直 接 进 入 最 核心 的 阶 


段 make_response 中 的 write_to_buf 


NO 


e 也 就 是 构造 报 文 阶段 


_ thread char local write buf[CONN_BUF_SIZE] = {0}; 
static int write to _buf(conn client * restrict client, // 
connection client message 
const char * const * restrict status, int 
rsource_ size) { 
#define STATUS_CODE 0 
#define STATUS_TITLE 1 
#define STATUS CONTENT 2 
char * write_buf = &local write buf[0]; /* Local wri 
te buffer */ 


string_t resource = client->conn_res.requ_ res path; / 
* Resource that peer request */ 

string_t w_buf = client->w_ buf; /* Real data b 
uffer */ 


int w count = 0; 

struct tm * utc; /* Get GMT time Format */ 
time_t now; 

time(&now); 

utc = gmtime(&now);/* Same As before */ 


utc 此 时 并 不 是 标准 的 格式 字符 串 ， 但 这 个 变量 里 面 有 我 们 需要 的 资源 


/* Construct the HTTP head */ 
w_count += Snprintf(write_buf+w_count， CONN_BUF_SIZE-w 
_Count, "%s %s %s\r\n", 
http_ver[client->conn_res.request_http_v], 
status[STATUS CODE], status[STATUS TITLE]) 


w_count += snprintf(write buf+w_ count, CONN_BUF_SIZE-w 
_Count, "Date: %s, %02d %s %d %02d:%02d:%02d GMT\r\n", 
date week[utc->tm wday], utc->tm_ mday, 
date _month[utc->tm_ mon], 1900+utc->tm_year 


utc->tm_hour, utc->tm min, utc->tm_ sec); 
w_count += snprintf(write buf+w_count, CONN_BUF_SIZE-w 
_Count， "Content-Type: %s\r\n", content_ type[lclient->conn_re 
S.Ccontent_type] ) 
w_count += Snprintf(write_buf+w_count， CONN_BUF_SIZE-w 
_Count， "Content-Length: %u\r\n", © == rsource_size 


? (unsigned int)strlen(status[2]): 
(unsigned int)rsource_ size); 
w_count += snprintf(write buf+w_count, CONN_BUF_SIZE-w 
_Count， "Connection: close\r\n"); 
w_count += snprintf(write buf+w_count, CONN_BUF_SIZE-w 
COUNEE Nr Nn) 
write_buf[w count] = '\0'，; 


从 上 往 下 依次 是 刚才 我 在 上 面 介 绍 的 顺序 ， 使 用 的 是 snprintf 函数 ， 其 实 此 
处 可 以 将 这 些 语句 合并 起 来 写 ， 而 不 是 分 别 调用 ， 十 分 浪费 。 但 这 么 写 比较 清 
晰 


其 中 在 生成 时 间 的 时 候 ， 我 使 用 的 是 预定 义 好 的 静态 字符 串 数 组 来 帮助 我 ， 可 
很 好 的 猜 到 这 些 date_xxx 数组 里 放 的 都 是 些 什 么 ， 无 非 就 是 一 些 时 间 的 缩 
写 oo 


/* 写 入 缓冲 区 */ 
append_string(w_buf, STRING(write_buf)); 
client->w_ buf_offset = w_ count; 


/* If Server do not wanna to sent local file */ 

if (9 == rsource size) { /* GET Method */ 
append_string(w_buf，STRING(Status[STATUS_CONTENT 

) ) ; 
Snprintf(write_buf+w_count， CONN_BUF_SIZE-w_count， 
status[2]); 

return 0; 

} else if (-1 == rsource_ size) { /* HEAD Method */ 
return 0O; 

} 

/* 如 果 需 要 服务 器 上 的 实体 资源 ， 那 就 找到 它 */ 

int fd = open(resource->Str，0_RDONLY ) ; 

if (fd < 0) { 
return -1; /* Write again */ 

} 

/* 将 资源 文件 映射 到 内 存 里 ， 这 样 就 能 很 好 的 操作 */ 

char *file map = mmap(NULL, (size_t)rsource_ size, PROT 

_READ, MAP_PRIVATE, fd, 0); 

if (NULL == file map) { 

assert(file map != NULL); 


} 
close(fd); 
/* 存 入 缓冲 区 */ 
append_string(w_buf, file map, rsource_ size); 
client->w_ buf _ offset += rsource_ size; 
munmap(file map, (unsigned int)rsource size); 
return 0， 

} 


e。 上 面 有 几 个 函数 调用 open ，mmap ，munmap ， 学 过 Linux 系统 编程 的 人 
肯定 知道 ， 这 是 共享 内 存 的 一 种 最 简单 高 效 的 方式 。 


e。 看 不 太 懂 的 可 以 去 查询 APUE 或 者 网 上 资源 很 多 ， 这 是 很 重要 的 一 个 知识 点 。 
大 致 的 功能 就 是 将 一 个 文件 打开 ， 并 映射 到 内 存 中 ， 这 个 内 存 可 以 在 多 个 进程 
间 共 享 MAP_SHARED 也 可 以 不 共享 MAP_PRIVATE ， 这 样 我 们 就 能 像 数 组 一 样 


对 其 进行 读 取 操作 了 。 


e@ 至 于 make_response_page 的 代码 就 不 贴 源码 了 ， 因 为 代码 几乎 都 是 在 做 检 
测 的 工作 ， 例 如 安全 之 类 的 事情 ， 以 及 方法 分 配 ， 只 需要 扫 一 眼 就 能 够 很 清楚 
的 理解 了 。 


e。 在 构造 完成 报 文 之 后 ， 下 一 步 自 然 就 是 发 送 它 了 ， 那 我 们 又 回 到 
了 worker_ thread 中 去 


发 送 报 文 


。 那 这 个 就 简单 很 多 了 ， 直 接 贴 上 代码 


HANDLE_STATUS handle write(conn client * client) { 
/* String Version */ 
char* w_buf = client->w buf->str; 
int w_offset = client->w buf_offset; 
int nbyte = w_offset,; 
int count = 0; 
int fd = client->file dsp; 
while (nbyte > 0) { 
w_buf += count,; 
count = write(fd，w buf, nbyte); 
if (count < 0) { 
if (EAGAIN == errno || EWOULDBLOCK == errno) { 
/* 如 果 发 送 缓冲 区 不 够 容纳 所 有 的 ， 那 就 下 次 再 发 */ 
memcpy(client->w_buf->str, w_buf, strlen(w 


_buf) ); 
client->w_buf_offset = nbyte; 
return HANDLE WRITE_ AGAIN,; 
} 
/* 在 这 个 地 方 就 是 前 面 所 说 的 那个 EPIPE 错 误 */ 
else /* if (EPIPE == errno) */ 
/* 对 端 关闭 了 连接 */ 
return HANDLE_WRITE_FAILURE ， 
} 
else if (0 == count) 
return HANDLE WRITE_ FAILURE,; 
nbyte -= count; 
} 


return HANDLE WRITE SUCCESS, 


e。 就 是 这 么 简单 ， 因 为 实在 是 没有 其 他 工作 可 以 做 了 
o 尝试 发 送 所 有 ， 直 到 发 送 完全 部 数据 ， 或 者 发 送 缓冲 区 不 够 ， 那 就 等 待 下 
次 发 送 ， 这 个 通过 epoll 很 容易 就 实现 了 。 
o 如 果 发 现 对 面 的 不 在 了 ， 直 接 关 闭 就 好 啦 。 


附加 


@ 源码 地 址 


e@ 个 人 博客 
小 结 


@ 其 实 也 是 拖 拖拉 拉 地 在 不 断 地 写 这 些 东西 

@ 也 还 是 因为 时 间 不 多 的 原因 ， 一 直 想 抽 一 个 连贯 的 时 间 ， 结 果 一 拖 就 是 半年 ， 
所 以 做 事 一 定 要 当机立断 ， 当 然 要 经 过 脑子 。 看 起 来 挺 矛盾 

@ 写 到 这 里 ， 算 是 给 自己 的 求学 之 路 一 个 挺 好 的 交代 ， 因 为 至 少将 自己 知道 的 都 
写 了 出 来 ， 对 我 也 好 ， 对 其 他 人 也 好 ， 至 少 插 安 心 的 。 

e。 无 论 如 何 都 要 感谢 一 下 互联 网 ， 学 校 图 书馆 的 馆藏 和 背 购 权限 。 

不 知道 我 这 些 东 西 有 多 少 能 帮助 到 看 的 人 ， 但 我 知道 一 定 会 有 影响 ， 也 一 定 有 

不 好 的 地 方 ， 但 是 我 不 怕 ， 就 怕 没 人 和 我 说 我 错 在 哪里 。 

e。 接 下 来 我 想 做 的 事 就 是 用 剩 下 的 一 年 里 去 互联 网 ，IT 的 各 个 大 领域 实习 ， 见 见 
世面 ， 心 中 还 是 有 鸿 物 之 志 的 。 

e@ 这 本 书 也 就 到 此 为 止 了 


题 外 话 


e 实际 上 也 是 构思 了 三 个 月 左右 ， 我 打算 附加 一 草 ， 用 来 实现 一 个 数据 库 系 统 ， 
在 上 一 节 也 提 到 过 。 

。 大 致 的 想法 是 实现 : SQL 编译 器 ， 数 据 库存 储 引 车， 数据 库 管 理 系统 。 至 于 
事务 的 话 ， 看 看 吧 。 觉 得 如 果 我 写 下 来 就 一 定 会 和 大 家 分 享 。 谢 谢 给 我 支持 的 
那些 人 。 


